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本 书 是 面向 初学 者 的 数据 分 析 入 门 指南 。 按 照 数据 分 析 的 数据 预 处 理 、 分 析 与 
知识 发 现 和 可 视 化 3 个 主要 步骤 ,本 书 逐 步 对 数据 分 析 涉及 的 理论 进行 讲解 ,并 对 实 
现 这 些 步骤 所 用 到 的 Python 库 进行 详细 介绍 。 通 过 理论 与 实践 穿插 的 讲解 方式 ,本 
书 使 读者 能 够 在 了 解数 据 分 析 基础 知识 的 同时 快速 上 手 实现 一 些 简单 的 分 析 。 

全 书 分 为 10 章 ,第 1.3.6 章 介 绍 数据 分 析 理 论 ,按照 数据 分 析 的 基本 流程 介绍 
了 理论 知识 和 一 些 常用 方法 ,穿插 在 理论 章节 之 间 的 Python 实战 章节 可 以 让 读者 在 
了 解 理论 之 后 用 相应 的 Python 库 来 进行 实战 操作 。 通 过 阅读 第 1~8 章 的 内 容 , 读 
者 已 经 对 数据 分 析 的 各 主要 流程 形成 了 一 定 的 认识 ,但 这 些 知识 可 能 还 未 形成 一 个 
完整 的 体系 ,因此 本 书 在 第 9 和 第 10 章 引入 了 两 个 完整 的 数据 分 析 实例 ,帮助 读者 
建立 知识 点 之 间 的 联系 ,形成 对 数据 分 析 整 个 知识 面 的 清晰 认 知 。 建 议 读者 在 阅读 
实战 章节 时 跟随 介绍 自己 动手 尝试 一 下 ,这 样 一 定 会 发 现 数据 的 魅力 所 在 。 

作为 一 本 数据 分 析 入 门 书籍 ,本 书 着 重 介绍 基础 知识 ,对 前 沿 的 内 容 涉 及 较 少 ,这 
些 内 容留 待 读者 在 更 进一步 的 学 习 中 深入 探索 。 对 于 Python 语言 的 知识 ,本 书 仅 对 与 
数据 分 析 相关 的 库 进行 了 介绍 ,如 果 读者 对 Python 语言 本 身 有 兴趣 ,可 以 参考 Python 
语言 工具 书 及 官方 文档 等 详细 了 解 Python 的 语法 和 底层 原理 等 。 另 外 ,本 书 所 有 数据 
分 析 程序 的 实现 均 在 单机 情况 下 进行 ,并 没有 对 如 何 使 用 Python 进行 分 布 式 数据 分 析 
作 介 绍 , 有 兴趣 的 读者 可 以 了 解 一 下 Python 分 布 式 数据 分 析 的 相关 库 ,如 pyspark 等 。 

本 书 主要 由 昌 云 翔 \ 李 伊 琳 ` 王 芗 一 张 雅 素 编写 , 曾 洪 立 \ 昌 彼 佳 、 国 Usagey 回 
姜 产 华 也 参与 了 部 分 内 容 的 编写 并 进行 了 素材 整理 及 配套 资源 制作 等 。 eE 
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数据 分 析 是 什么 





1.1 海量 数据 背后 蕴藏 的 知识 


自古 以 来 ,人 们 观察 世界 中 的 对 象 ,对 观察 得 到 的 数据 进行 分 析 , 从 而 发 现 各 种 
规律 和 法 则 ,例如 开 普 勒 通过 天 体 观测 数据 发 现 了 开 普 勒 定律 。 通 过 记录 过 去 发 生 
的 事情 ,可 推断 得 到 一 些 可 能 的 规律 ,这 些 规律 可 以 解释 当前 发 生 的 事情 ,并 可 用 于 
对 未 来 进行 预测 。 在 这 个 过 程 中 ,数据 是 十 分 宝贵 的 材料 ,其 背后 蕴藏 着 能 够 指导 未 
来 的 知识 。 

随 着 计算 机 数据 库 技术 的 发 展 成 熟 和 计算 机 的 普及 深化 ,各 行 各 业 每 天 都 在 产 
生 和 收集 大 量 数 据 。 例 如 ,社交 网 络 媒体 每 天 产生 的 数据 十 分 惊人 ,2012 年 的 微 博 
日 发 量 高 达 4 亿 条 ,Twitter 的 信息 量 几乎 每 年 都 在 翻番 增长 ,另外 各 种 商业 领域 政 
府 部 门 累计 的 数据 量 也 令 人 上 蛇 目 。 管 理 者 们 希望 从 数据 中 获得 隐藏 在 数据 中 的 有 价 
值 的 信息 来 帮助 决策 ,例如 在 制造 业 中 , 决策 者 需要 了 解 客户 偏好 ,设计 受 欢迎 的 产 
品 ; 需要 制定 合适 的 价格 ,在 确保 利润 的 同时 保证 市 场 ; 需要 了 解 市 场 需 求 ,调整 生 
产 计 划 等 。 但 是 面 对 海 量 、 无 序 的 数据 ,如 果 管 理 者 们 得 不 到 想 要 的 信息 ,就 会 造成 
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信息 爆炸 的 问题 。 数 据 分 析 的 任务 则 是 尝试 将 这 些 数据 赋予 意义 ,并 为 决策 提供 
参考 。 


1.2 数据 分 析 与 数据 挖掘 的 关系 


传统 的 统计 分 析 是 在 已 定 假设 . 先 验 约 束 上 ,对 数据 进行 整理 ,筛选 和 加 工 , 巾 此 
得 到 一 些 信息 ,而 这 些 信息 需要 得 到 进一步 的 认 知 ,用 于 有 效 的 预测 和 决策 ,这 样 的 
过 程 则 是 数据 挖掘 的 过 程 。 统 计 分 析 是 把 数据 变 成 信息 的 工具 ,数据 挖掘 是 把 信息 
变 成 认 知 的 工具 。 广 义 上 的 数据 分 析 是 指 整个 过 程 , 即 从 数据 到 认 知 。 本 书 是 指 广 
义 上 的 数据 分 析 ,将 统计 分 析 部 分 放 和 数据 预 处 理 阶 段 , 即 数据 经 整理 .筛选 ,加工 转 
换 为 信息 的 过 程 ; 将 挖掘 部 分 放 和 数据 分 析 与 知识 发 现 阶段 ,即将 信息 进一步 处 理 ， 
获得 认 知 ,并 进行 预测 和 决策 的 过 程 。 


1.3 机 器 学 习 与 数据 分 析 的 关系 


机 器 学 习 是 人 工 智能 的 核心 研究 领域 之 一 ,最 初 的 目的 是 让 机 器 具有 学 习 能 力 ， 
从 而 拥有 智能 ,目前 公认 的 定义 是 利用 经 验 来 改善 计算 机 系统 自身 的 性 能 。 由 于 “经 
验 ” 在 计算 机 系统 中 主要 以 数据 形式 存在 ,因此 机 器 学 习 需 要 对 数据 进行 分 析 。 

数据 分 析 的 定义 则 是 识别 出 海量 数据 中 有 效 的 、 新 颖 的 、 潜 在 有 用 的 、 最 终 可 理 
解 的 模式 的 非 平凡 过 程 , 即 从 海量 数据 中 找到 有 用 的 知识 ,主要 利用 机 器 学 习 领 域 提 
供 的 技术 来 分 析 海量 数据 。 


1.4 数据 分 析 的 基本 步骤 


数据 分 析 的 步骤 为 数据 收集 一 数据 预 处 理 一 数据 分 析 与 知识 发 现 一 数据 后 
处 理 。 
1. 数据 收集 


之 前 的 数据 收集 包含 抽样 .测量 编码、 输入、 核对 等 操作 ,这 是 一 种 主动 的 收集 


| eux 数据 分 析 是 什么 (3 


数据 的 方法 。 

如 今 由 于 传感器 、 照 相机 等 电子 设备 普及 ,大 量 的 数据 会 涌 入 ,无 法 像 传 统 的 数 
据 收 集 那 样 得 到 少 而 精 的 数据 ,而 是 产生 了 大 量 的 、 元 余 的 但 是 信息 量 少 的 数据 ,从 
这 样 的 数据 中 得 到 所 需要 信息 的 过 程 是 目前 数据 分 析 的 重点 和 难点 ,也 是 本 书 的 主 
要 关注 点 。 


2. 数据 预 处 理 


数据 预 处 理 完成 从 数据 到 信息 的 转化 过 程 : 首先 对 数据 进行 初步 的 统计 方面 的 
分 析 , 得 到 数据 的 基本 档案 ; 其 次 分 析 数 据 质量 ,从 数据 的 一 致 性 、 完 整 性 \ 准 确 性 和 
及 时 性 4 个 方面 进行 分 析 ; 再 次 根据 发 现 的 数据 质量 问题 对 数据 进行 清洗 ,包括 缺失 
值 处 理 ,噪声 处 理 等 ; 最 后 对 其 进行 特征 抽取 ,为 后 续 的 数据 分 析 工 作 做 准备 。 


3. 数据 分 析 与 知识 发 现 


数据 分 析 与 知识 发 现 则 是 将 预 处 理 后 的 数据 进行 进一步 分 析 , 完 成 从 信息 到 认 
知 的 转化 过 程 。 从 整理 后 的 数据 中 学 习 和 发 现 知识 ,主要 分 为 有 监督 的 和 无 监督 的 。 
有 监督 的 分 析 包 括 分 类 分 析 、 关 联 分 析 和 回归 分 析 ; 无 监督 的 分 析 包 括 聚 类 分 析 、 异 
常 检测 。 


4. 数据 后 处 理 
数据 后 处 理 主要 包括 提供 数据 给 决策 支撑 系统 ,数据 可 视 化 等 。 本 书 主要 关注 
数据 可 视 化 的 一 些 内 容 。 


1.5 Python 和 数据 分 析 


数据 分 析 需 要 与 数据 进行 大 量 的 交互 、 探 索性 计算 以 及 过 程 数 据 和 结果 的 可 视 
化 等 ,过 去 有 很 多 专用 于 实验 性 数据 分 析 或 者 领域 的 特定 语言 ,如 R 语言 、 
MATLAB,SAS,SPSS 等 。 与 这 些 语 言 相 比 , Python 具有 以 下 优点 : 


1. Python 是 面向 生产 的 


大 部 分 数据 分 析 过 程 都 是 首先 进行 实验 性 的 研究 .原型 构建 ,再 移植 到 生产 系统 
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中 。 上 述 语言 都 无 法 直接 用 于 生产 ,需要 使 用 C/C++ 语言 等 对 算法 进行 再 次 实现 ; 
而 Python 是 多 功能 的 ,不 仅 适 用 于 原型 构建 ,还 可 以 直接 运用 到 生产 系统 中 。 


2. 强大 的 第 三 方 库 的 支持 


Python 是 多 功能 的 语言 ,数据 统计 更 多 的 是 通过 第 三 方 的 库 来 实现 的 ,常用 的 
有 NumPy,SciPy, Pandas, scikit-learn, Matplotlib 等 ,具体 每 个 库 的 功能 将 在 第 2 章 
中 介绍 。 在 上 述 提 到 的 语言 中 ,只 有 R 语言 和 Python 语言 是 开源 的 ,由 很 多 人 共同 
维护 ,对 于 新 的 需求 可 以 很 快 地 付 诸 实践 。 


3. Python 的 胶水 语言 特性 


Python 的 底层 可 以 用 C 语言 来 实现 ,一 些 底层 用 C 语言 写 的 算法 封装 在 Python 
包 中 能 显著 提高 性 能 。 例 如 NumPy 底层 是 用 C 语言 实现 的 ,所 以 对 于 很 多 运算 , 它 
的 速度 都 比 用 R 语言 等 语言 实现 的 要 快 。 
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2.1 Python 的 发 展 史 


1989 年 的 圣诞 节 , 荷 兰 数学 家 、 计 算 机 学 家 Guido von Rossum 为 了 打发 无 聊 的 
假期 ,着 手 设计 了 一 门 新 的 脚本 解释 型 编程 语言 。 他 希望 这 门 语言 能 够 像 Shell 语言 
一 样 方便 ,同时 又 能 像 C 语言 一 样 可 以 调用 众多 系统 接口 。Guido 将 这 种 介 于 C 与 
Shell 之 间 的 语言 命名 为 Python, 这 个 名 称 来 源 于 他 最 爱 的 电视 剧 。1991 年 ,Python 
的 第 1 个 公开 发 行 版 问世 。Python 的 后 续 版 本 不 断 发 行 ,其 中 最 重大 的 升级 出 现在 
2000 年 10 月 发 行 的 Python 2. 0 和 2008 年 12 月 发 行 的 Python 3. 0 版 本 中 。 在 
Python 2. 0 中 增加 了 许多 新 特性 ,包括 垃圾 回收 机 制 和 对 Unicode 的 支持 ; 在 
Python 3.0 中 去 掉 了 2. x 系列 版 本 中 元 余 的 关键 字 , 使 Python 更 加 规范 .简洁 ,并 进 
一 步 完 善 了 对 Unicode 的 支持 。 值 得 注意 的 是 ,Python 3. x 系列 版 本 不 支持 向 下 兼 
容 。Python 2. x 系列 的 最 新 版 本 为 2010 年 7 月 发 行 的 2.7 版 本 ,官方 将 在 2020 年 
停止 对 该 版 本 的 支持 。 

自 1991 年 至 今 ,Python 经 过 了 大 大 小 小 多 次 升级 变革 ,发 展 成 为 简洁 、 人 气 颇 高 
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的 编程 语言 ,受到 了 众多 编程 人 员 的 青睐 ,这 与 Python 社区 的 支持 和 贡献 是 分 不 开 
的 。 社 区 人 员 贡 献 的 大 量 模块 能 够 支持 Python 方便 地 完成 包括 机 器 学 习 、 图 像 处 
理 . 科 学 计算 等 在 内 的 多 种 多 样 的 任务 ,这 也 吸引 了 越 来 越 多 的 编程 人 员 成 为 
Python 社区 的 一 员 。 


2.2 Python 及 Pandas.scikit-learn, Matplotlib 的 安装 


2.2.1 Windows 环境 下 Python 的 安装 


在 Windows 系统 下 安装 Python 的 过 程 非常 简单 ,只 需要 到 官网 上 ?下 载 相应 的 
安装 程序 即 可 。 网 页 会 自动 识别 计算 机 的 操作 系统 ,并 在 最 醒目 的 位 置 提供 该 操作 
系统 对 应 的 最 高 版 本 安装 程序 的 下 载 链接 。 需 要 注意 的 是 ,安装 程序 并 未 默认 选中 
“将 Python 3. 6 加 入 到 系统 环境 变量 PATH 中 ”这 一 选项 ,如 果 在 安装 时 未 选中 此 选 
项 ,需要 在 安装 完毕 后 手动 将 安装 路 径 加 入 到 环境 变量 PATH 中 ,和 否则 系统 无 法 找 
到 Python 命令 。 


2.2.2 Mac 环境 下 Python 的 安装 


Mac 系统 需要 使 用 Python, 因 此 该 系统 中 已 经 预 装 了 某 个 版 本 的 Python。 但 在 
通常 情况 下 ,开发 者 需要 一 个 更 新 的 Python 版 本 ,此 时 需要 注意 保留 系统 中 原 有 的 
Python 版 本 ,否则 可 能 会 影响 系统 的 稳定 性 。 在 Mac 系统 下 安装 Python 有 两 种 常 
用 方法 ,一 种 是 使 用 homebrew 安装 ; 另 一 种 是 使 用 官网 的 installer 安装 。 在 使 用 
homebrew 安装 时 ,如 果 安 装 Python 2. x 版 本 ,可 以 直接 在 终端 中 输入 : 


brew install python 
如 果 是 安装 Python 3. x 版 本 ,需要 输入 : 
brew install python3 


如 果 需 要 查看 上 述 Python 版 本 ,可 以 输入 : 


(D https://www. Python. org/downloads/ 
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brew info python 


在 使 用 homebrew 安装 Python 时 ,无 法 选择 Python 在 2.x 及 3.x 系 列 下 的 具体 
版 本 ,版 本 可 能 也 不 是 最 新 的 。 除 此 之 外 ,对 Mac 系统 不 熟 的 用 户 可 能 会 出 现 
意 想不到 的 问题 ,因此 这 里 推荐 使 用 官网 的 installer 进行 安装 。 和 Windows 系统 下 
Python 的 安装 类 似 , 用 户 首先 需要 去 官网 下 载 相应 版 本 的 installer(mac OS 64-bit/ 
32-bit 版 ) ,然后 按照 向 导 提 示 进 行 安装 即 可 。 


2.2.3 Pandas,scikit-learn 和 Matplotlib 的 安装 


和 其 他 第 三 方 包 相 同 ,本 书 用 到 的 3 个 主要 包 Pandas, scikit-learn 和 Matplotlib 
都 可 以 使 用 pip 进行 安装 。pip 是 Python 的 第 三 方 包 管理 器 ,在 此 我 们 不 做 详细 的 
介绍 。 这 里 使 用 pip 进行 安装 ,如 果 系 统 中 已 经 安装 了 pip, 则 直接 在 终端 依次 输入 
以 下 命令 即 可 完成 安装 s 

pip install pandas 

pip install scikit - learn 

pip install matplotlib 

H 3. 4 版 本 开始 ,在 安装 Python 的 同时 也 会 安装 pip。 如 果 用 户 使 用 的 是 较 低 
版 本 的 Python, 则 需要 手动 安装 pip, 但 将 Python 升级 到 最 新 版 本 也 许 是 一 个 更 好 的 
选择 。 


2.2.4 使 用 科学 计算 发 行 版 Python 进行 快速 安装 


除了 安装 官方 的 标准 Python 版 本 以 及 手动 安装 所 需 的 各 Python 包 以 外 ,还 有 
一 种 更 加 简单 的 Python 安装 方法 一 一 使 用 第 三 方 科学 计算 发 行 版 Python。 这 类 发 
行 版 一 般 会 将 一 个 标准 版 本 的 Python 和 众多 的 包 集 成 在 一 起 , 免 去 手动 安装 科学 计 
算 库 的 步骤 ,安装 和 使 用 都 较为 方便 。 现 在 流行 的 几 款 科学 计算 发 行 版 Python 
如 下 。 

Anaconda?: Anaconda 包括 一 个 标准 版 本 的 Python (目前 有 2. 7,3. 5 和 3.6 
3 个 版 本 可 以 选择 ) 一 个 Python 包 管 理 器 conda 和 100 多 个 科学 计算 功能 Python 


(D https://www. continuum. io/anaconda-overview 
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l. Anaconda 包括 Jupyter、Spyder 和 Visual Studio 等 多 个 开源 开发 环境 ,还 支持 
Sublime Text 2 和 PyCharm。Anaconda 目前 发 行 了 Windows, Mac,Linux 几 个 平台 
的 版 本 ,因此 无 论 对 于 哪个 平台 的 用 户 都 是 很 好 的 选择 。 

WinPython?; WinPython 是 Windows 系统 上 的 一 个 Python 科学 计算 发 行 版 ， 
和 Anaconda 类 似 , 它 也 包含 一 个 标准 Python 版 本 、 一 个 Python 包 管 理 器 WPPM 
(WinPython Package Manager) 和 众多 科学 计算 功能 Python 包 , 内 置 Spyder、Jupyter 
和 IDLE 等 编辑 器 。WinPython 的 最 大 特点 是 便携 (Portable) , 它 是 一 个 绿色 软件 ， 
不 会 写 人 Windows 注册 表 , 所 有 的 文件 都 位 于 一 个 文件 夹 中 ,将 这 个 文件 夹 放置 到 
移动 存储 设备 中 甚至 是 其 他 设备 上 也 能 够 运行 。 


2.3 Python 基础 知识 


本 节 将 会 用 一 段 功 能 较为 简单 的 程序 来 简要 介绍 Python 语言 的 基础 知识 ,对 
Python 语言 有 一 定 了 解 的 读者 可 以 跳 过 此 节 ,而 基础 较 弱 的 读者 如 果 无 法 看 懂 本 节 
所 介绍 的 知识 点 ,可 以 阅读 更 多 的 Python 基础 教程 ,在 开始 打 好 坚实 的 Python 语言 
基础 将 会 为 接 下 来 的 数据 分 析 实 战 做 良好 的 铺垫 。Code 2-1 是 一 段 简 单 的 Python 
小 程序 ,用 于 计算 斐 波 那 契 数列 的 前 10 项 ,并 将 结果 存 人 文件 中 。 

Code 2-1 Python 代码 实例 : 求 斐 波 那 契 数列 

1 # Fibonacci sequence 
2j e 

3: 斐 波 那 契 数列 

4: 输入 : 项 数 n 

5: 输出 : 前 n 项 
6: 
7 
8 
9 


: import os 


: def fibo(num): 
10: numbers - [1,1] 
11: for i in range(nun - 2): 
12: numbers. append(numbers[i] + numbers[i-* 1]) 
13: return numbers 


(D http://winPython. github. io 
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15: answer = fibo(10) 


16: print(answer) 


18: if not os. path. exists( 'result'): 
19: os. mkdir('result') 


21: file= open('result/fibo.txt', w') 


23: for num in answer: 


24: file.write(str(num) + ' ') 


26: file.close() 


这 段 程 序 首先 定义 了 函数 fibo O ,使 用 迭代 的 方法 计算 了 斐 波 那 契 数列 的 前 
项 并 存 入 一 个 列表 中 , 接 下 来 程序 调用 这 个 函数 计算 数列 的 前 10 项 ,在 将 结果 打印 
到 控制 台 的 同时 把 10 个 数 存 入 文件 中 。 这 段 代码 展示 了 Python 的 诸多 特性 ,下 面 
将 逐一 介绍 。 


2.3.1 缩 进 很 重要 


在 大 多 数 程 序 设 计 语 言 中 , 缩 进 仅仅 是 一 种 增加 代码 可 读 性 的 措施 ,是 否 缩 进 以 
及 如 何 放置 .放置 什么 缩 进 符 (Tab 或 者 空格 ) 并 不 会 影响 程序 的 执行 ,但 是 在 Python 
语言 中 , 缩 进 符 决定 了 程序 的 结构 。 例 如 ,上 述 代码 的 第 9 行 定义 了 一 个 fibo() 函 
数 , 和 其 他 许多 编程 语言 不 同 ,Python 并 不 需要 在 函数 体外 加 上 大 括号 ,而 是 使 用 缩 
进来 表示 函数 声明 和 函数 体 的 关系 ,同时 函数 声明 需要 以 冒号 结束 。 除 了 函数 的 定 
义 以 外 ,条 件 判 断 语 句 (例如 第 18 行 的 让 语句 ) 和 循环 语句 (例如 第 23 行 的 for 语句 ) 
也 需要 遵守 上 述 规定 。 这 种 规定 看 似 很 苛刻 ,但 也 正 是 由 于 严格 的 缩 进 ,Python 语 
言 变 得 非常 易 读 。 


2.3.2 模块 化 的 系统 


Python 从 诞生 之 初 就 非常 注重 语言 的 可 扩展 性 。 模 块 化 增加 了 代码 的 可 重用 
性 ,为 编程 带 来 了 极 大 的 便利 。 例 如 ,上 述 代码 中 的 第 7 行 引 入 了 标准 库 的 os 模块 ， 
它 提供 了 操作 系统 的 各 类 接口 ,提供 了 操作 文件 系统 和 管理 线程 等 功能 。 在 第 18 
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行 , 程 序 使 用 os 模块 提供 的 接口 对 文件 夹 是 否 已 经 存在 进行 判断 ,如 果 不 存 在 上 述 
文件 夹 ,在 第 19 行将 会 创建 该 文件 夹 。 除 了 标准 库 以 外 ,Python 还 拥有 众多 可 引入 
的 第 三 方 库 , 例 如 用 于 进行 科学 计算 的 Scipy、 机 器 学 习 库 scikit-learn 等 ,这 些 第 三 方 
库 极 大 地 扩展 了 Python 语言 的 功能 ,给 使 用 者 带 来 了 诸多 便利 。 第 三 方 库 可 以 从 
PyPI(Python Package Index) 获 得 ,PyPI 是 一 个 Python 第 三 方 包 库 , 目 前 其 中 已 有 
超过 115 000 个 包 , 可 用 Python 的 包 管 理 器 pip 获得 。 


2.3.3 注释 


许多 编程 语言 都 使 用 双 和 斜 杠 “//” 来 表示 注释 ,而 在 Python 中 ,单行 注释 使 用 井 
号 “# "表示 ,多 行 注 释 使 用 三 引号 表示 。 例 如 ,上 述 代码 的 第 1 行 就 是 一 个 单行 注 
释 , 第 2 一 6 行 是 多 行 注释 。 


2.3.4 语法 


Python 的 语法 和 大 多 数 程序 设计 语言 的 语法 非常 相近 ,因此 已 经 有 其 他 程序 语 
言 设计 基础 的 学 习 者 可 以 很 快 地 熟悉 Python; 而 对 于 没有 接触 过 编程 的 学 习 者 来 
说 ,Python 的 语法 简单 清晰 ,对 初学 者 非常 友好 ,所 以 国外 的 许多 大 学 都 将 Python 
作为 计算 机 /软件 工程 专业 的 人 门 编程 语言 。 本 书 在 此 不 再 详细 介绍 Python 的 语法 
知识 ,下 面 列 出 一 些 Python 语言 的 学 习 参 考 资料 ,作为 读者 的 Python 入 门 学 习 
参考 。 

* Magnus Lie Hetland. Python 基础 教程 LMJ]. 圳 国 忠 , 译 . 3 版 .北京 : 人 民 邮 电 

出 版 社 , 2018. 
* Wesley Chun. Python 核心 编程 LMJ]. 孙 波 翔 ,李斌 , 李 蛤 , 译 . 3 版 . 北京: AR 
邮电 出 版 社 , 2016. 

其 中 ,前 者 介绍 了 Python 的 一 些 基础 知识 ,在 详细 讲解 语法 的 同时 给 出 了 多 个 
Python 实际 项 目 例子 ,可 作为 入 门 书 阅 读 ; 后 者 侧重 讲述 Python 的 应 用 ,从 多 个 实 
际 应 用 领域 给 出 了 Python 编程 指导 。 在 阅读 前 者 对 Python 有 了 一 定 的 了 解 之 后 ， 
读者 可 以 继续 阅读 后 者 进一步 学 习 。 
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2.4 重要 的 Python 库 


2.4.1 Pandas? 


Pandas 是 一 个 构建 在 NumPy 之 上 的 高 性 能 的 数据 分 析 库 。 它 的 基本 数据 结构 
包括 Series 和 DataFrame, 分 别处 理 一 维和 多 维 数 据 。Pandas 能 够 对 数据 进行 排序 、 
分 组 、 归 并 等 操作 ,也 能 够 进行 求 和 \ 求 极 值 求 标准 差 . 协 方差 矩阵 计算 等 统计 计算 。 


2.4.2 scikit-learn? 


scikit-learn 是 一 个 构建 在 NumPy,SciPy 和 Matplotlib 上 的 机 器 学 习 库 ,包括 多 
种 分 类 回归、 聚 类 、 降 维 、 模 型 选择 和 预 处 理 算法 与 方法 ,例如 支持 向 量 机 、 最 近邻 、 
朴素 贝 叶 斯 LDA、 特 征 选 择 、K-means \ 主 成 分 分 析 、 网 格 搜索 .特征 提取 等 。 


2.4.3 Matplotlib? 


Matplotlib 是 一 个 绘图 库 , 其 功能 非常 强大 ,可 以 绘制 许多 图 形 ,包括 直方 图 、 折 
线 图 、 饼 图 、 散 点 图 .函数 图 像 等 二 维 或 三 维 图 形 ,甚至 是 动画 。 


2.4.4 其 他 


Pandas,scikit-learn 和 Matplotlib 是 本 书 用 到 的 最 主要 的 3 个 Python 库 。 下 面 
介绍 5 个 科学 计算 /数据 分 析 常 用 库 。 


1. NumPy? 
NumPy 是 一 个 基础 的 科学 计算 库 , 它 是 SciPy . Pandas, scikit-learn, Matplotlib 


等 许多 科学 计算 与 数据 分 析 库 的 基础 。NumPy 的 最 大 贡献 在 于 它 提供 了 一 个 多 维 


http://pandas. pydata. org 
http://scikit-learn. org/stable/ 
http://matplotlib. org 


eece 


http://www. numpy. org 


(93) Python 数据 分 析 实战 | 
数组 对 象 的 数据 结构 ,可 以 用 于 数据 量 较 大 情况 下 的 数组 与 矩阵 的 存储 和 计算 。 除 
此 之 外 , 它 还 提供 了 具有 线性 代数 、 傅 里 叶 变 换 和 随机 数 生成 等 功能 的 函数 。 
2. SciPy 
SciPy 同样 是 一 个 科学 计算 库 。 与 NumPy 相 比 , 它 包 含 了 统计 计算 、 最 优化 、 数 


值 积分 、 信 号 处 理 、 图 像 处 理 等 多 个 功能 模块 ,涵盖 了 更 多 的 数学 计算 函数 ,是 一 个 更 
加 全 面 的 Python 科学 计算 工具 库 。 


3. Scrapy? 


XT UESZ Fd £6 fO rh B0 D OE UE Scrapy 可 能 是 再 熟悉 不 过 的 了 。Scrapy 是 一 个 
简单 . 易 用 的 网 页 数据 提取 框架 , 几 行 代码 就 能 够 快速 构建 一 个 网 络 朴 虫 。 在 进行 数 
据 分 析 时 ,Scrapy 可 以 用 于 自动 化 地 从 网 页 上 获得 需要 分 析 的 数据 ,而 不 需要 人 工 进 
行 数据 的 获取 与 整理 。 


4. NLTK? 


NLTK( Natural Language Toolkit) 是 一 个 强大 的 自然 语言 处 理 库 。NLTK 能 够 
用 于 进行 分 类 、 分 词 .相似 度 计算 、 词 干 提 取 、 语 义 推理 等 多 种 自然 语言 处 理 任 务 , 提 
供 了 针对 WordNet, Brown 等 超过 50 个 语料库 和 词汇 资源 的 接口 。 


5. statsmodels? 


statsmodels 是 从 SciPy 中 独立 出 来 的 一 个 模块 (原本 为 scipy. stats) , 它 是 一 个 
统计 学 计算 库 , 主 要 功能 包括 线性 回归 方差 分 析 、 时 间 序 列 分 析 、 统 计 学 分 析 等 。 


2.5 Jupyter 


Jupyter 是 一 个 交互 式 的 数据 科学 与 科学 计算 开发 环境 ,在 详细 介绍 Jupyter 之 
前 ,一 定 要 提 另 一 个 Python 项 目 一 一 IPython。 和 Jupyter 类 似 ,IPython 是 一 个 


(D https://scrapy. org 
Q http://www. nltk. org 
G http://www. statsmodels. org/stable/index. html 


| 38235 “Python 一 一 从 了 解 Python 开始 








Python 语言 环境 下 的 交互 式 开发 环境 。2014 年 ,IPython 项 目 将 和 本 项 目 程 序 设 计 
语言 无 关 的 部 分 (包括 Notebook 的 Web 应 用 程序 .QRTConsole 等 ) 独 立 出 来 ,成 为 一 
个 新 项 目 Jupyter。 和 IPython 不 同 的 是 ,Jupyter 支持 包括 Python, R, Scala 等 
在 内 的 40 多 种 编程 语言 ; 而 IPython 则 一 直 专 注 于 交互 式 Python, 反 过 来 为 Jupyter 
项 目 提 供 Python kernel。 

Jupyter 为 Python 开发 带 来 了 全 新 的 体验 。Jupyter Notebook 是 一 种 基于 Web 
的 Python 编辑 器 , 它 可 以 远程 访问 ,这 就 意味 着 开发 人 员 无 须 在 本 机 上 安装 Python 
环境 ,而 是 通过 访问 服务 器 上 的 Jupyter Notebook 即 可 进行 开发 。 同 时 ,Jupyter 能 
够 为 交互 式 的 开发 提供 支持 ,编程 人 员 在 写 代码 的 同时 可 以 快速 查看 结果 。 除 此 之 
外 ,使 用 Markdown 语言 还 能 够 轻松 地 将 样式 丰富 的 文字 添加 到 Notebook 中 ,实现 
代码 ,运行 结果 和 文字 的 穿插 展示 ,方便 用 户 快 速 构建 开发 文档 甚至 论文 。Jupyter 
Notebook 的 快捷 键 十 分 方便 ,能 够 极 大 地 提高 开发 效率 。 

Jupyter 的 安装 非常 简单 ,在 命令 提示 符 或 终端 中 输入 以 下 命令 即 可 : 





pip install jupyter 


对 于 使 用 Anaconda 或 WinPython 的 用 户 来 说 ,这 些 科学 计算 专业 发 行 版 已 经 
安装 了 Jupyter, 因 此 不 需要 额外 安装 ,输入 以 下 命令 即 可 在 基于 Web 的 Notebook 
上 进行 Python 程序 开发 : 


jupyter notebook 
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不 了 解数 据 一 切 都 是 空谈 





数据 预 处 理 是 数据 分 析 的 第 一 个 重要 步骤 ,只 有 对 数据 充分 了 解 ,经 过 对 数据 质 
量 的 检验 ,并 初步 尝试 解析 数据 间 关 系 ,才能 为 后 续 的 数据 分 析 提 供 有 力 支撑 。 了 解 
数据 是 对 数据 本 身 的 重视 。 数 据 分 析 是 为 了 解决 实际 问题 ,数据 往往 来 源 于 实际 生 
活 , 而 直接 收集 到 的 数据 总 是 存在 一 些 问题 ,例如 存在 缺失 值 、 噪 声 、 数 据 不 一 致 , 数 
据 元 余 或 者 与 分 析 目 标 不 相关 等 问题 。 这 些 问 题 十 分 普遍 ,所 以 ,不 了 解数 据 , 一 切 
都 是 空谈 。 

了 解数 据 的 过 程 如 下 : 首先 观察 统计 数据 的 格式 、 内 容 、 数 量 ; 然后 分 析 数据 质 
dit ,是否 存在 缺失 值 、 噪 声 .数据 不 一 致 .数据 元 余 等 问题 ; 最 后 分 析 数 据 相 关 性 ,是 
否 存 在 数据 元 余 或 者 与 分 析 目 标 不 相关 等 问题 。 在 现在 的 数据 分 析 过 程 中 ,尤其 是 
在 利用 机 器 学 习 的 算法 进行 数据 分 析 的 过 程 中 ,特征 工程 也 是 十 分 重要 的 一 环 。 本 
章 将 对 上 述 过 程 中 的 关键 步骤 进行 详细 介绍 ,具体 内 容 如 下 : 3.1 节 给 出 与 数据 相关 
的 一 些 概 念 ,以 便于 读者 的 后 续 理解 ; 3.2 节 给 出 解决 数据 质量 的 一 系列 数据 校 验 的 
手段 ; 3.3 节 给 出 分 析 数 据 相 关 性 的 一 系列 方法 ; 3.4 节 讲 述 特 征 工程 所 需 进 行 的 
步骤 。 
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3.1 了 解数 据 


数据 分 为 定性 数据 和 定量 数据 ,其 具体 分 类 如 图 3-1 所 示 。 定 性 数据 包括 两 个 
基本 层次 , 即 定 序 (ordinal) 和 名 义 (nominal) 层 次 。 定 序 变量 指 该 变量 只 是 对 某 些 特 
性 的 “多 少 ” 进 行 排序 ,但 是 各 个 等 级 之 间 的 差别 不 确定 。 例 如 对 某 一 个 事物 进行 评 
ffr ,将 其 分 为 好 ,一 般 \ 不 好 3 个 等 级 ,其 等 级 之 间 没 有 定量 关系 。 名 义 变量 则 是 指 该 
变量 只 是 测量 某 种 特征 的 出 现 或 者 不 出 现 。 例 如 性 别 “ 男 "和 “ 女 ”, 两 者 之 间 没 有 任 
何 关系 ,不 能 排序 或 者 刻度 化 。 
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图 3-1 数据 类 别 结构 


每 一 个 细致 的 数据 分 析 者 首先 需要 考查 每 个 变量 的 关键 特征 ,通过 这 个 过 程 可 
以 更 好 地 感受 数据 ,其 中 有 两 个 特征 需要 特别 关注 , 即 集中 趋势 (central tendency) 和 
离散 程度 (disperasion)。 考 查 各 个 变量 间 的 关系 是 了 解数 据 十 分 重要 的 一 步 , 有 一 
系列 方法 可 用 于 对 变量 间 的 相关 性 进行 测量 。 关 于 数据 本 身 的 质量 问题 ,需要 数据 
分 析 者 了 解数 据 缺 失 情 况 .噪声 及 离 群 点 等 ,相关 概念 将 在 下 面 的 内 容 中 给 出 。 


1. 集中 趋势 


集中 趋势 的 主要 测度 是 均值 ,中 位 数 和 众 数 ,这 3 个 概念 对 于 大 多 数 的 读者 而 言 
该 不 陌生 。 对 于 定量 数据 ,其 均值 .中 位 数 和 众 数 的 度量 都 是 有 效 的 ; 对 于 定性 数 
据 , 这 3 个 指标 所 能 提供 的 信息 很 少 。 对 于 定 序 变 量 ,均值 无 意义 ,中 位 数 和 众 数 能 
反映 一 定 的 含义 ; 对 于 名 义 变量 ,均值 和 中 位 数 均 无 意义 , 仅 众 数 有 一 定 的 含义 ,但 
仍 需 注 意 , 众 数 仅 代表 对 应 的 特征 出 现 最 多 ,不 能 代表 该 特征 占 多 数 。 其 中 ,对 于 名 
义 变量 的 二 分 变量 ,如 果 有 合适 的 取 值 , 均 值 就 可 以 进行 有 意义 的 解释 ,详细 说 明 将 
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在 后 面 的 章节 中 亲 述 。 
2 离散 程度 


考虑 变量 的 离散 情况 主要 考虑 变量 的 差别 如 何 ,常见 的 测度 有 极 差 ,方差 和 标准 
差 , 另 外 还 有 四 分 位 距 , 平 均 差 和 变异 系数 等 。 对 于 定量 数据 而 言 , 极 差 代表 数据 所 
处 范围 的 大 小 ,方差 ,标准 差 和 平均 差 等 代表 数据 相对 均值 的 偏离 情况 ,但 是 方差 . 标 
准 差 和 平均 差 等 都 是 数值 的 绝对 量 ,无 法 规避 数值 度量 单位 的 影响 。 变 异 系数 为 了 
修正 这 个 束 端 ,使 用 标准 差 除 以 均值 得 到 的 一 个 相对 量 来 反映 数据 集 的 变异 情况 或 
者 离散 程度 。 对 于 定性 数据 , 极 差 代表 取 值 类 别 , 相 比 定量 数据 ,定性 数据 的 极 差 所 
表达 的 含义 很 有 限 , 其 他 的 离散 程度 测度 对 于 定性 数据 的 含义 不 大 ,尤其 是 对 于 名 义 
变量 。 


3. 相关 性 测量 


在 进行 真正 的 数据 分 析 之 前 ,可 以 通过 一 些 简单 的 统计 方法 计算 变量 之 间 的 相 
关 性 ,这 些 方法 包括 : 

1) 数据 可 视 化 处 理 

将 想 要 分 析 的 变量 绘制 成 折线 图 或 者 散 点 图 ,做 图 表 相 关 分 析 , 变 量 之 间 的 趋势 
和 联系 就 会 清晰 浮现 。 虽 然 没 有 对 相关 关系 进行 准确 度量 ,但 是 可 以 对 其 有 一 个 初 
步 的 探索 和 认识 。 

2) 计算 变量 间 的 协 方差 

协 方差 可 以 确定 相关 关系 的 正 与 负 , 但 它 并 不 反映 关系 的 强度 ,如 果 变 量 的 测量 
单位 发 生变 化 ,这 一 统计 量 的 值 就 会 发 生变 化 ,但 是 实际 变量 间 的 相关 关系 并 没有 发 
生变 化 。 

3) 计算 变量 间 的 相关 系数 

相关 系数 则 是 一 个 不 受 测量 单位 影响 的 相关 关系 统计 量 ,其 理论 上 限 是 十 1( 或 
一 1) ,表示 完全 线性 相关 。 

4) 进行 一 元 回归 或 多 元 回归 分 析 

如 果 两 个 变量 都 是 定性 数据 ( 定 序 变 量 或 者 名 义 变量 ), 则 在 评估 它们 之 间 的 关 
系 时 ,上 述 方法 都 不 适用 ,例如 画 散 点 图 等 。 定 序 变量 可 以 采用 肯 德 尔 相关 系数 进行 
测量 , 当 值 为 1 时 ,表示 两 个 定 序 变 量 拥有 一 致 的 等 级 相关 性 ; 当 值 为 一 1 时 ,表示 两 
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个 定 序 变 量 拥 有 完全 相反 的 等 级 相关 性 ; 当 值 为 0 时 ,表示 两 个 定 序 变 量 是 相互 独立 
的 。 对 于 两 个 名 义 变量 之 间 的 关系 ,由 于 缺乏 定 序 变量 的 各 个 值 之 间 多 或 者 少 的 特 
性 ,所 以 讨论 * 随 着 X 增加 ,Y 也 倾向 于 增加 ”这 样 的 关系 没有 意义 ,需要 一 个 概要 性 
的 相关 测度 ,例如 可 以 采用 Lamda 系数 。Lamda 系数 是 一 个 预测 性 的 相关 测度 , 表 
示 在 预测 Y 时 如 果 知 道 X 能 减少 的 误差 。 


4. 数据 缺失 


将 数据 集中 不 含 缺失 值 的 变量 称 为 完全 变量 ,将 含有 缺失 值 的 变量 称 为 不 完全 
变量 ,产生 缺失 值 的 原因 通常 有 以 下 几 种 : 

COD 数据 本 身 被 遗漏 ,由 于 数据 采集 设备 的 故障 、 存 储 介质 的 故障 、 传 输 媒 体 的 
故障 ,一 些 人 为 因素 等 原因 而 丢失 。 

(2) 某 些 对 象 的 一 些 属性 或 者 特征 是 不 存在 的 ,所 以 导致 空缺 。 

(3). 某 些 信息 被 认为 不 重要 ,与 给 定 环 境 无 关 , 所 以 被 数据 库 设计 者 或 者 信息 采 
集 者 忽略 。 


5. 了 噪声 


噪声 是 指 被 观测 的 变量 的 随机 误差 或 方差 ,用 数学 形式 表示 如 下 : 
观测 量 (Measurement) 王 真实 数据 (True Data) 十 噪声 (Noise) 


6. 离 群 点 
在 数据 集中 包含 这 样 一 些 数据 对 象 , 它 们 与 数据 的 一 般 行为 或 模型 不 一 致 , 这 样 
的 对 象 称 为 离 群 点 。 离 群 点 属于 观测 值 。 


3.2 数据 质量 


数据 质量 是 数据 分 析 结果 的 有 效 性 和 准确 性 的 前 提 保 障 , 从 哪些 方面 评估 数据 
质量 则 是 数据 分 析 需 要 考虑 的 问题 ,典型 的 数据 质量 标准 评估 有 4 个 要 素 , 即 完整 
性 、 一 致 性 、 准 确 性 和 及 时 性 。 
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3.2.1 完整 性 


完整 性 指 的 是 数据 信息 是 否 存在 缺失 的 情况 ,数据 缺失 的 情况 可 能 是 整个 数据 
记录 缺失 ,也 可 能 是 数据 中 某 个 字段 信息 的 记录 缺失 。 不 完整 的 数据 所 能 借鉴 的 价 
值 会 大 大 降低 ,因此 完整 性 是 数据 质量 最 基础 的 一 项 评估 标准 。 

数据 质量 的 完整 性 比较 容易 评估 ,一 般 可 以 通过 数据 统计 中 的 记录 值 和 唯一 值 
进行 评估 。 

下 面 从 3.1 节 了 解数 据 时 得 到 的 数据 统计 信息 看 看 哪些 可 以 用 来 审核 数据 的 完 
整 性 。 首 先是 记录 的 完整 性 ,一 般 使 用 统计 的 记录 数 和 唯一 值 个 数 。 例 如 ,网 站 日 志 
日 访问 量 就 是 一 个 记录 值 ,平时 的 日 访问 量 在 1000 左右 , 若 突 然 某 一 天 降 到 100, 则 
需要 检查 数据 是 否 存在 缺失 。 再 例如 ,网 站 统计 地 域 分 布 情况 的 每 一 个 地 区 名 就 是 
一 个 唯一 值 , 我 国 包 括 了 32 个 省 和 直辖 市 ,如 果 统 计 得 到 的 唯一 值 小 于 32, 则 可 以 判 
断 数 据 有 可 能 存在 缺失 。 

完整 性 的 另 一 方面 是 记录 中 某 个 字段 的 数据 缺失 ,可 以 使 用 统计 信息 中 的 空 值 
(NULL) 的 个 数 进行 审核 。 如 果 某 个 字段 的 信息 在 理论 上 必然 存在 ,如 访问 的 页 面 
地 址 、 购 买 商品 的 ID 等 ,那么 这 些 字段 的 空 值 个 数 的 统计 就 应 该 是 0, 这 些 字段 可 以 
使 用 非 空 (NOT NULL) 约 束 来 保证 数据 的 完整 性 ; 对 于 某 些 允许 为 空 的 字段 ,如 用 
户 的 cookie 信息 不 一 定 存在 (用 户 禁用 cookie) ,但 空 值 的 占 比 基本 恒定 ,cookie 为 空 
的 用 户 比 例 通常 是 2% 一 3%。 另 外 ,也 可 以 使 用 统计 的 空 值 个 数 来 计算 空 值 占 比 ,如 
果 空 值 的 占 比 明显 增 大 , 则 很 可 能 这 个 字段 的 记录 出 现 了 问题 ,信息 出 现 缺失 。 


3.2.2 一 致 性 


一 致 性 是 指数 据 是 否 符合 规范 ,数据 集合 内 的 数据 是 否 保持 了 统一 的 格式 。 

数据 质量 的 一 致 性 主要 体现 在 数据 记录 的 规范 和 数据 是 否 符合 逻辑 上 。 数 据 记 
录 的 规范 主要 是 数据 编码 和 格式 ,一 项 数据 存在 它 特定 的 格式 ,例如 手机 号 码 一 定 是 
13 位 的 数字 ,IP 地 址 一 定 是 由 4 个 0 一 255 的 数字 加 上 “. ”组 成 的 ,或 者 是 一 些 预先 
定义 的 数据 约束 ,如 完整 性 的 非 空 约束 唯一 值 约束 等 。 逻辑 则 指 多 项 数据 间 存 在 着 
固定 的 逻辑 关系 以 及 一 些 预先 定义 的 数据 约束 ,例如 PV 一 定 是 大 于 等 于 UV 的 , 跳 
出 率 一 定 是 在 0 一 1 范围 内 。 数 据 的 一 致 性 审核 是 数据 质量 审核 中 比较 重要 、 比 较 复 
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杂 的 一 个 方面 。 

如 果 数 据 记 录 格 式 有 标准 的 编码 规则 ,那么 对 数据 记录 的 一 致 性 检验 比较 简单 ， 
只 要 验证 所 有 的 记录 是 否 满足 这 个 编码 规则 就 可 以 ,最 简单 的 方法 就 是 使 用 字段 的 
KE .唯一 值 个 数 这 些 统计 量 。 例 如 , 若 用 户 ID 的 编码 是 15 位 数字 ,那么 字段 的 最 
长 和 最 短 字 符 数 都 应 该 是 15; 或 者 商品 ID 是 以 P 开始 后 面 跟 10 位 数字 ,可 以 用 同 
样 的 方法 检验 ; 如 果 字 段 必须 保证 唯一 ,那么 字段 的 唯一 值 个 数 跟 记 录 数 应 该 是 一 
致 的 ,如 用 户 的 注册 邮箱 ; 地 域 的 省 份 直 辖 市 一 定 是 统一 编码 的 ,记录 的 一 定 是 “上 
海 ” 而 不 是 上海 市 ”, 是 “浙江 ”而 不 是 “浙江 省 ”, 可 以 把 这 些 唯 一 值 映 射 到 有 效 的 32 
个 省 市 的 列表 ,如 果 无 法 映射 ,那么 字段 将 不 能 通过 一 致 性 检验 。 

一 致 性 中 逮 辑 规则 的 验证 相对 比较 复杂 ,很 多 时 候 指标 的 统计 逻辑 的 一 致 性 需 
要 底层 数据 质量 的 保证 ,同时 也 要 有 非常 规范 和 标准 的 统计 巡 辑 的 定义 ,所 有 指标 的 
计算 规则 必须 保证 一 致 。 用 户 经 常 犯 的 错误 就 是 汇总 数据 和 细 分 数据 加 起 来 的 结果 
对 不 上 ,导致 这 个 问题 的 原因 很 有 可 能 是 在 细 分 数据 的 时 候 把 那些 无 法 明确 归 到 某 
个 细 分 项 的 数据 给 排除 了 ,如 在 细 分 访问 来 源 的 时 候 , 如 果 无 法 将 某 些 非 直 接 进 入 的 
来 源 明确 地 归 到 外 部 链接 、 搜 索引 擎 .广告 等 这 些 既 定 的 来 源 分 类 ,也 不 应 该 直接 过 
滤 掉 这 些 数据 ,而 应 该 给 一 个 “未 知 来 源 ” 的 分 类 ,以 保证 根据 来 源 细 分 之 后 的 数据 加 
起 来 可 以 与 总 体 的 数据 保持 一 致 。 如 果 需 要 审核 这 些 数据 逻辑 的 一 致 性 ,可 以 建立 
一 些 “ 有 效 性 规则 ”, 例 如 AZ B. And C=B/A, 那 么 C 的 值 应 该 在 0 一 1 范围 内 ,数据 
若 无 法 满足 这 些 规则 就 无 法 通过 一 致 性 检验 。 





3.2.3 准确 性 


准确 性 是 指数 据 记 录 的 信息 是 否 存在 异常 或 错误 。 和 一 致 性 不 一 样 ,导致 一 臻 
性 问题 的 原因 可 能 是 数据 记录 规则 不 同 , 但 不 一 定 是 错误 的 ,而 存在 准确 性 问题 的 数 
据 不 仅仅 只 是 规则 上 的 不 一 致 。 准 确 性 关注 数据 中 的 错误 ,最 为 常见 的 数据 准确 性 
错误 就 如 乱码 。 其 次 ,异常 的 大 或 者 小 的 数据 以 及 不 符合 有 效 性 要 求 的 数值 (例如 访 
问 量 Visits) 一 定 是 整数 ,年 龄 一 般 为 1 一 100、 转 化 率 一 定 为 0~1 等 。 

数据 的 准确 性 可 能 存在 于 个 别 记录 ,也 可 能 存在 于 整个 数据 集 。 如 果 整 个 数据 
集 的 某 个 字段 的 数据 存在 错误 .如 常见 的 数量 级 的 记录 错误 , 则 这 种 错误 很 容易 被 发 
现 , 利 用 Data Profiling 的 平均 数 和 中 位 数 也 可 以 发 现 这 类 问题 。 当 数据 集中 存在 个 
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别 的 异常 值 时 ,可 以 使 用 最 大 值 和 最 小 值 的 统计 量 去 审核 ,使 用 箱 线 图 也 可 以 让 异常 
记录 一 目 了 然 。 

另外 ,还 存在 几 个 准确 性 的 审核 问题 .字符 乱码 的 问题 或 者 字符 被 截断 的 问题 ， 
可 以 使 用 分 布 来 发 现 这 类 问题 ,一 般 的 数据 记录 基本 符合 正 态 分 布 或 者 类 正 态 分 布 ， 
那么 占 比 异常 小 的 数据 项 很 可 能 存在 问题 ,如 某 个 字符 记录 占 总 体 的 占 比 只 有 
0. 174 ,而 其 他 字符 的 占 比 都 在 3% 以 上 ,那么 很 有 可 能 这 个 字符 记录 有 异常 ,一 些 
ETL 工具 的 数据 质量 审核 会 标识 出 这 类 占 比 异常 小 的 记录 值 。 对 于 数值 范围 既定 
的 数据 ,也 可 以 添加 有 效 性 的 限制 ,超过 数据 有 效 的 值 域 定义 数据 记录 就 是 错误 的 。 

有 些 数据 并 没有 显著 异常 .但 记录 的 值 仍然 可 能 是 错误 的 ,只 是 这 些 值 与 正常 的 
值 比较 接近 而 已 ,这 类 准确 性 检验 最 困难 ,一 般 只 能 通过 与 其 他 来 源 或 者 统计 结果 进 
行 比 对 来 发 现 问题 ,如 果 使 用 超过 一 套数 据 收集 系统 或 者 网 站 分 析 工 具 ,那么 通过 不 
同 数据 来 源 的 数据 比 对 可 以 发 现 一 些 数据 记录 的 准确 性 问题 。 


3.2.4 及 时 性 


及 时 性 是 指数 据 从 产生 到 可 以 查看 的 时 间 间 隔 , 也 叫 数据 的 延 时 时 长 。 及 时 性 
对 于 数据 分 析 本 身 要 求 并 不 高 ,但 如 果 数据 分 析 周期 加 上 数据 建立 的 时 间 过 长 ,就 可 
能 导致 分 析 得 出 的 结论 失去 了 借鉴 意义 。 所 以 需要 对 数据 的 有 效 时 间 进 行 关注 , 例 
如 每 周 的 数据 分 析 报 告 要 两 周 后 才能 出 来 ,那么 分 析 的 结论 可 能 已 经 失去 时 效 性 ,分 
析 师 的 工作 只 是 徒劳 ; 同时 , 某 些 实时 分 析 和 决策 需要 用 到 小 时 或 者 分 钟 级 的 数据 ， 
这 些 需 求 对 数据 的 时 效 性 要 求 极 高 。 因 此 ,及 时 性 也 是 数据 质量 的 组 成 要 素 之 一 。 


3.3 数据 清洗 


数据 清洗 的 主要 目的 是 对 缺失 值 . 噪 声 数据 ,不 一 致 数据 .异常 数据 进行 处 理 ,是 
对 上 述 数据 质量 分 析 时 发 现 的 问题 进行 处 理 , 使 得 清理 后 的 数据 格式 符合 标准 ,不 存 
在 异常 数据 等 。 


1. 缺失 值 的 处 理 


对 于 缺失 值 , 处 理 方法 有 以 下 几 种 : 
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(1) 最 简单 的 方法 是 忽略 有 缺失 值 的 数据 。 如 果 某 条 数据 记录 存在 缺失 项 ,就 
删除 该 条 记录 ,如果 某 个 属性 列 缺 失 值 过 多 , 则 在 整个 数据 集中 删除 该 属性 ,但 有 可 
能 因此 损失 大 量 数据 。 

(2) 可 以 进行 缺失 值 填补 ,可 以 填补 某 一 固定 值 .平均 值 或 者 根据 记录 填充 最 有 
可 能 值 ,最 有 可 能 值 的 确定 可 能 会 利用 决策 树 .回归 分 析 等 。 





2. 了 噪声 数据 的 处 理 


1) 分 箱 技术 

分 箱 技术 是 一 种 常用 的 数据 预 处 理 的 方法 ,通过 考察 相 邻 数据 来 确定 最 终 值 ,可 
以 实现 异常 或 者 噪声 数据 的 平滑 处 理 。 其 基本 思想 是 按照 属性 值 划分 子 区 间 ,如 果 
属性 值 属于 某 个 子 区 间 ,就 称 将 其 放 人 该 子 区 间 对 应 “箱子 内, 即 为 分 箱 操作 。 箱 的 
深度 表示 箱 中 所 含 数据 记录 的 条 数 ,宽度 则 是 对 应 属性 值 的 取 值 范围 。 在 分 箱 后 , 考 
察 每 个 箱子 中 的 数据 ,按照 某 种 方法 对 每 个 箱子 中 的 数据 进行 处 理 , 常 用 的 方法 有 按 
照 箱 平 均值 .中 值 .边界 值 进行 平滑 等 。 在 采用 分 箱 技术 时 ,需要 确定 的 两 个 主要 问 
题 是 如 何 分 箱 以 及 如 何 对 每 个 箱子 中 的 数据 进行 平滑 处 理 。 

2) 聚 类 技术 

聚 类 技术 是 将 数据 集合 分 组 为 由 类 似 的 数据 组 成 的 多 个 簇 ( 或 称 为 类 ) 。 聚 类 技 
术 主 要 用 于 找 出 并 清除 落 在 簇 之 外 的 值 (孤立 点 ), 这 些 孤 立 点 被 视 为 噪声 ,不 适合 于 
平滑 数据 。 聚 类 技术 也 可 用 于 数据 分 析 ,其 分 类 及 典型 算法 等 在 6. 3 节 有 详细 说 明 。 

3) 回归 技术 

回归 技术 是 通过 发 现 两 个 相关 变量 之 间 的 关系 寻找 适合 的 两 个 变量 之 间 的 映射 
关系 来 平滑 数据 , 即 通过 建立 数学 模型 来 预测 下 一 个 数值 ,包括 线性 回归 和 非 线性 回 
归 , 具 体 的 方法 在 6.4 节 中 说 明 。 


3. 不 一 致 数据 的 处 理 


对 于 数据 质量 中 提 到 的 数据 不 一 致 性 问题 ,需要 根据 实际 情况 给 出 处 理 方案 ,可 
以 使 用 相关 材料 来 人 工 修复 ,违反 给 定 规则 的 数据 可 以 用 知识 工程 的 工具 进行 修改 。 
在 对 多 个 数据 源 集成 处 理 时 ,不同 数 据 源 对 某 些 含义 相同 的 字段 的 编码 规则 会 存在 
差异 ,此 时 需要 对 不 同 数据 源 的 数据 进行 数据 转化 。 
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4. 异常 数据 的 处 理 


异常 数据 大 部 分 是 很 难 修正 的 ,如 字符 编码 等 问题 引起 的 乱码 .字符 被 截断 . 异 
常 的 数值 等 ,这 些 异 常数 据 如 果 没 有 规律 可 循 几 乎 不 可 能 被 还 原 , 只 能 将 其 直接 

有 些 数据 异常 则 可 以 被 还 原 ,如 对 于 原 字符 中 摊 杂 了 一 些 其 他 的 无 用 字符 的 情 
况 ,可 以 使 用 取 子 串 的 方法 ,用 trim O 函数 去 掉 字符 串 前 后 的 空格 等 ; 对 于 字符 被 截 
断 的 情况 ,如 果 可 以 使 用 截断 后 字符 推导 出 原 完整 字符 串 , 那 么 也 可 以 被 还 原 。 当 数 
值 记录 中 存在 异常 大 或 者 异常 小 的 值 时 ,可 以 分 析 是 否 为 数值 单位 差异 引起 的 ,如 克 
和 千克 差 了 1000 倍 , 这 样 的 数值 异常 可 以 通过 转化 进行 处 理 。 数 值 单 位 的 差异 也 可 
以 认为 是 数据 的 不 一 致 性 ,或 者 是 某 些 数值 被 错误 地 放大 或 缩小 ,如 数值 后 面 被 多 加 
了 几 个 0 导致 的 数据 异常 。 


3.4 特征 工程 


在 很 多 应 用 中 ,所 采集 的 原始 数据 维 数 很 高 ,这 些 经 过 数据 清洗 后 的 数据 成 为 原 
始 特征 ,但 并 不 是 所 有 的 原始 特征 都 对 后 续 的 分 析 可 以 直接 提供 信息 ,有 些 需要 经 过 
一 些 处 理 , 有 些 甚至 是 干扰 项 。 特 征 工程 是 利用 领域 知识 来 处 理 数 据 创建 一 些 特征 ， 
以 便 后 续 分 析 使 用 。 特 征 工程 包括 特征 选择 ,特征 构建 特征 提取 。 其 目的 是 用 尽量 
少 的 特征 描述 原始 数据 ,同时 保持 原始 数据 与 分 析 目 的 相关 的 特性 。 


3.4.1 特征 选择 


特征 选择 是 指 从 特征 集合 中 挑选 一 组 最 具 统 计 意 义 的 特征 子 集 , 从 而 达到 降 维 
的 效果 。 特 征 选择 具体 从 以 下 几 个 方面 进行 考虑 : 

CD 特征 是 否 发 散 。 

如 果 一 个 特征 不 发 散 , 例 如 方差 接近 于 0, 也 就 是 说 样本 在 这 个 特征 上 基本 没有 
差异 , 则 这 个 特征 对 于 样本 的 区 分 并 没有 什么 用 。 

(2) 特征 是 否 与 分 析 结 果 相 关 。 

相关 特征 是 指 其 取 值 能 够 改变 分 析 结 果 。 显 然 ,应 当 优 选 选择 与 目标 相关 性 高 











的 特征 。 

(3) 特征 信息 是 否 元 余 。 

在 特征 中 可 能 存在 一 些 元 余 特 征 , 即 两 个 特征 本 质 上 相同 ,也 可 以 表示 为 两 个 特 
征 的 相关 性 比较 高 。 

进行 特征 选择 有 以 下 几 种 方法 : 

1) Filter( 过 滤 法 ) 

按照 发 散 性 或 者 相关 性 对 各 个 特征 进行 评分 , 设 定 阔 值 或 者 待 选择 阔 值 的 个 数 ， 
选择 特征 。 

2) Wrapper( 包 装 法 ) 

根据 目标 函数 (通常 是 预测 效果 评分 ) ,每 次 选择 若干 特征 或 者 排除 若干 特征 。 

3) Embedded( 集 成 法 ) 

首先 使 用 某 些 机 器 学 习 的 算法 和 模型 进行 训练 ,得 到 各 个 特征 的 权 值 系数 ,然后 
根据 系数 从 大 到 小 选择 特征 。 其 类 似 于 Filter 方法 ,但 是 它 通过 训练 来 确定 特征 的 


3.4.2 特征 构建 


特征 构建 是 指 从 原始 特征 中 人 工 构建 新 的 特征 。 特 征 构 建 需要 很 强 的 洞察 力 和 
分 析 能 力 ,要 求 用 户 能 够 从 原始 数据 中 找 出 一 些 具有 物理 意义 的 特征 。 假 设 原始 数 
据 是 表格 数据 ,可 以 使 用 混合 属性 或 者 组 合 属性 来 创建 新 的 特征 ,或 者 通过 分 解 或 切 
分 原 有 的 特征 来 创建 新 的 特征 。 


3.4.3 ”特征 提取 


特征 提取 是 在 原始 特征 的 基础 上 自动 构建 新 的 特征 ,将 原始 特征 转换 为 一 组 更 
具 物 理 意义 ,统计 意义 或 者 核 的 特征 。 其 方法 主要 有 主 成 分 分 析 、 独 立成 分 分 析 和 线 
性 判别 分 析 。 


1. PCA (Principal Component Analysis . 主 成 分 分 析 ) 


PCA 的 思想 是 通过 坐标 轴 转 换 寻 找 数据 分 布 的 最 优 子 空间 ,从 而 达到 降 维 .去 
除数 据 间 相 关 性 的 目的 。 在 数学 上 是 先 用 原始 数据 协 方差 矩阵 的 前 N 个 最 大 特征 
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值 对 应 的 特征 向 量 构成 映射 矩阵 ,然后 原始 矩阵 去 乘 映射 矩阵 ,从 而 对 原始 数据 降 
维 。 特 征 向 量 可 以 理解 为 坐标 轴 转 换 中 新 坐标 轴 的 方向 ,特征 值 表 示 和 矩阵 在 对 应 特 
征 向 量 上 的 方差 ,特征 值 越 大 ,方差 越 大 ,信息 量 越 多 。 


2. ICA (Independent Component Analysis ,独立 成 分 分 析 ) 


PCA 特征 转换 降 维 提取 的 是 不 相关 的 部 分 ,ICA 独立 成 分 分 析 获 得 的 是 相互 独 
立 的 属性 。ICA 算法 本 质 上 是 寻找 一 个 线性 变换 > 二 Wz ,使 得 = 的 各 个 特征 分 量 之 
间 的 独立 性 最 大 。ICA 与 PCA 相 比 更 能 刻画 变量 的 随机 统计 特性 , 且 能 抑制 噪声 。 
ICA 认为 观测 到 的 数据 矩阵 导 可 以 由 未 知 的 独立 元 矩阵 S 与 未 知 的 矩阵 4 相 乘 得 
到 。ICA 和 希望 通过 矩阵 六 求 得 一 个 分 离 矩 阵 多 ,使 得 多 作用 在 X 上 所 获得 的 矩阵 了 
能 够 台 近 独立 元 矩阵 $ ,最 后 通过 独立 元 矩阵 S 表示 和 矩阵 X ,所 以 ,ICA 独立 成 分 分 析 
提取 出 的 是 特征 中 的 独立 部 分 。 


3. LDA(Linear Discriminant Analysis .线性 判别 分 析 ) 


LDA 的 原理 是 将 带 上 标签 的 数据 (点 ) 通 过 投影 的 方法 投影 到 维度 更 低 的 空间 ， 
使 得 投影 后 的 点 会 按 类 别 区 分 ,相同 类 别 的 点 将 会 在 投影 后 更 接近 ,不 同类 别 的 点 将 
相距 更 远 。 


P 
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NumPy 一 一 数据 分 析 基 础 工具 





NumPy 是 Python 处 理 数 组 和 矢量 运算 的 工具 包 , 是 进行 高 性 能 计算 和 数据 分 
析 的 基础 ,也 是 本 书 中 介绍 的 Pandas, scikit-learn 和 Matplotlib 的 基础 。NumPy 提 
供 了 对 数组 进行 快速 运算 的 标准 数学 函数 ,并 且 提 供 了 简单 易 用 的 面向 C 语言 的 
API。NumPy 对 于 矢量 运算 不 仅 提供 了 很 多 方便 的 接口 ,而且 其 效率 比 用 户 手动 用 
Python 语言 实现 数组 运算 要 更 高 。 虽 然 NumPy 本 身 没 有 提供 很 多 高 级 的 数据 分 析 
功能 ,但 是 对 于 NumPy 的 了 解 将 有 助 于 后 续 数 据 分 析 工 具 的 使 用 ,所 以 在 此 对 
NumPy 进行 一 个 简单 的 介绍 ,NumPy 的 引入 约定 见 Code 4-1。 


Code 4-1 NumPy 的 引入 约定 





In [1]: import numpy as np 





在 后 面 的 代码 中 ,“np” 均 指 代 NumPy。 这 是 NumPy 比较 通用 的 一 个 表达 ,因此 
建议 读者 也 这 样 使 用 。 
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4.1 多 维 数组 对 象 ndarray 


NumPy 中 一 个 很 重要 的 基础 工具 就 是 其 维 数组 对 象 ndarray, 该 对 象 保 存 同 
一 类 型 的 数据 ,访问 方式 类 似 于 list, 通 过 整数 下 标 进行 索引 。ndarray 对 象 有 一 些 重 
要 的 描述 对 象 特征 的 属性 ,例如 shape, ndim, size, dtype 和 itemsize, 具 体 属 性 说 明 如 
表 4-1 所 示 ,Code 4-2 中 展示 了 每 个 属性 的 具体 使 用 。 


表 4-1 ndarray 对 象 的 常用 属性 




















ndarray 对 象 的 属性 说 明 
返回 一 个 元 组 ,用 于 表示 ndarray 各 个 维度 的 长 度 ,元 组 的 长 度 为 数组 的 维度 
Spe (与 ndim 相同 ) ,元 组 的 每 个 元 素 的 值 代表 了 ndarray 每 个 维度 的 长 度 
ndim ndarray 对 象 的 维度 
size ndarray 中 元 素 的 个 数 ,相当 于 各 个 维度 长 度 的 乘积 
dtype ndarray 中 存储 的 元 素 的 数据 类 型 
itemsize ndarray 中 每 个 元 素 的 字 节 数 





Code 4-2 ndarray 对 象 的 重要 属性 


In [1]: arr = np.array([[1,2,3],[4,5,6]]) 
In [2]: arr.shape 

Out [2]: (2,3) 

In [3]: arr.ndim 


Out [3]: 2 

In [4]: arr.size 
Out [4]: 6 

In [5]: arr. itemsize 
Out [5]: 8 


In [6]: arr.dtype 
Out [6]: dtype('int64') 





4.1.1 ndarray 的 创建 


对 于 ndarray 的 创建 ,NumPy 提供 了 很 多 方式 。 首 先 .可 以 使 用 array O PRÉC. E 
受 一 切 序列 类 型 对 象 ,生成 一 个 新 的 ndarray 对 象 ,通过 这 个 函数 可 以 将 其 他 序列 对 
象 转换 为 ndarray, 并 且 可 以 显 式 指定 dtype。 其 次 ,NumPy 提供 了 一 些 便利 的 初始 
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化 函数 ,例如 ,通过 ones( 〇 函数 可 以 创建 指定 shape 的 全 1 数组 ; 通过 zeros( 〇 函数 可 
以 创建 全 0 数组 ; 通过 arange O 函数 可 以 创建 等 间隔 的 数组 等 。 表 4-2 中 列 出 了 一 
些 常用 的 创建 ndarray 对 象 的 函数 ,Code 4-3 一 Code 4-6 展示 了 具体 用 法 , 表 4-3 中 给 
出 了 ndarray 对 象 存 储 的 具体 数据 类 型 的 说 明 。 


表 4-2 创建 ndarray 对 象 的 函数 



































函数 名 称 说 H 
将 输入 的 序列 类 型 数据 (list、tuple、 ndarray 等 ) 转 换 为 ndarray, 返回 一 个 新 的 
array() 
ndarray 对 象 
REA 将 输入 的 序列 类 型 数据 (list、tuple 等 ) 转 换 为 ndarray, 返 回 一 个 新 的 ndarray X1 $ 
É 但 当 输入 数据 是 ndarray 类 型 时 不 会 生成 新 的 ndarray 对 象 , 见 Code 4-4 
o 根据 输入 的 参数 返回 等 间隔 的 ndarray, 见 Code 4-5, 第 1 行 输入 和 第 2 行 输入 返回 
AED 的 ndarray 是 相同 的 ,默认 从 0 开始 ,间隔 为 1, 用 户 可 以 自己 指定 区 间 和 间隔 
ones) 指定 shape, 创 建 全 1 数组 
ones_like() 以 另 一 个 ndarray 的 shape 为 指定 shape 创建 全 1 数组 
Zeros() 指定 shape, 创 建 全 0 数组 
zeros_like() 以 另 一 个 ndarray 的 shape 为 指定 shape 创建 全 0 数组 
empty() 指定 shape, 创 建新 数组 ,但 只 分 配 空间 不 填充 值 ,默认 的 dtype 为 float64, 见 Code 4-5 
以 另 一 个 ndarray 的 shape 为 指定 shape 创建 新 数组 ,但 只 分 配 空间 不 填充 值 ,默认 
empty_like() 
的 dtype 为 float64 
eyeO ,identity() | 创建 nXn 的 单位 矩阵 ,对 角 线 为 1, 其 余 为 0, 见 Code 4-6 





Code 4-3 asarray() 函 数 传 入 的 参数 为 ndarray 对 象 时 


In [1]: arr 1 = np.array([1,2,3]) 
In [2]: arr 2 - np.asarray(arr 1) 
In [3]: arr 2[0] = 5 

In [4]: arr 1[0] 

Out [4]: 5 





Code 4-4 通过 arange() 函 数 创建 ndarray 对 象 





In [1]: np.arange(5) 

Out [1]: array([0, 1, 2, 3, 4]) 
In [2]: np.arange(0,5,1) 

Out [2]: array([0, 1, 2, 3, 4]) 
In [3]: np.arange(1,5,2) 

Out [3]: array([1, 3]) 
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Code 4-5 通过 empty() 函 数 创建 ndarray 对 象 





In [1]: 
In [2]: 
Out [2]: 


In [3]: 
Out [3]: 


arr emp = np.enmpty((2,3)) 

arr emp 

array([[ — 1.72723371e- 077, —1.72723371e - 077, 2.25164165e - 314], 
[ 2.27146036e - 314, 2.26750741e- 314, 2.26752012e - 314]]) 

arr emp.dtype 

dtype( '£1oat64') 





Code 4-6 通过 eye() 和 identity() 函 数 创建 ndarray X1 $& 





In [1]: 
Out [1]: 


In [2]: 


np. eye(3) 

array([[ 1., 0., 0.], 
[0., 1., 0.], 
[0., 0., 1.]]) 

np. identity (4) 











Out [2]: array([[ 1., 0., 0., 0.], 
[0.,1., 0., 0.], 
[0., 0., 1., 0.], 
[0., 0., 0., 1.])) 
R 4-3 ndarray 对 象 的 数据 类 型 说 明 
数据 类 型 类 型 命名 说 明 
vey ote ne 有 符号 和 无 符号 的 8 位 .16 位 .32 位 .64 位 
整数 (u2); int32 (i4) , uint32 (u4); int64 整数 
(18) ,uint64Cu8) 
float16 为 半 精 度 浮 点 数 ,存储 空间 为 16 位 
2( 字 节 )， 
float32 为 单 精度 浮 点 数 ,存储 空间 为 32 位 
4( 字 节 ) ,与 C 语言 的 float 兼容 ; 
float16 £2) , fl 2 (f4 f) 、float64 
a — [aon es OM | float64 为 双 精度 浮 点 数 ,存储 空间 为 64 位 
SAN š 8( 字 节 ) ,与 C 语言 的 double 及 Python 的 
float 对 象 兼容 ， 
float128 为 扩展 精度 浮 点 数 ,存储 空间 为 128 
位 16( 字 节 ) 
两 个 浮 点 数 表示 的 复数 。 
复数 complex64 ( c8), complex128 (c16), | complex64 使 用 两 个 32 位 浮 点 数 表 示 ; 
complex256(c32) complex128 使 用 两 个 64 位 浮 点 数 表示 ; 





complex256 使 用 两 个 128 位 浮 点 数 表示 
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续 表 
数据 类 型 类 型 命名 说 明 
布尔 数 bool 布尔 类 型 ,存储 True 和 False, 字 节 长 度 为 1 
Python 对 象 | O Python 对 象 类 型 





S 为 固定 长 度 的 字符 串 类 型 ,每 个 字符 的 字 
节 长 度 为 1,S 后 面 跟随 的 数字 表示 要 创建 


ap S10 的 字符 串 的 长 度 ， 
U10 unicode 为 固定 长 度 的 unicode 类 型 ,每 个 字 
符 的 字 节 长 度 ,U 后 面 跟随 的 数字 表示 要 创 

建 的 字符 串 的 长 度 











4.1.2 ndarray 的 数据 类 型 


若 查询 某 个 ndarray 的 dtype 属性 ,可 以 返回 一 个 dtype 类 型 的 对 象 ,这 是 
NumPy 的 一 个 特殊 类 型 ,dtype 类 型 的 对 象 含有 ndarray 将 所 在 内 存 解释 成 特定 数 
据 类 型 所 需 的 信息 ,dtype 的 存在 是 NumPy 强大 和 灵活 的 原因 之 一 ,可 以 将 ndarray 
的 数据 类 型 直接 映射 到 相应 的 机 器 表示 。dtype 中 数值 型 对 象 的 命名 规则 为 “类 型 名 
十 元 素 所 占 bit 数 ”, 如 int64。 用 户 对 于 NumPy 支持 的 数据 类 型 无 须 全 部 记 住 ,只 要 
通过 dtype 属性 得 知 所 处 理 的 数据 是 浮 点 类 型 . 整 型 .复数 .布尔 值 .字符 串 还 是 
Python 对 象 即 可 。 


4.2 ndarray 的 索引 、 切 片 和 和 迭代 


一 维 的 ndarray 的 索引 ( 见 Code 4-7) .切片 和 和 迭代 类 似 于 Python 中 对 list 的 操 
作 。 多 维 的 ndarray 则 可 以 在 每 一 个 维度 有 一 个 索引 ,每 个 索引 可 以 是 数值 .数值 的 
list\ 切 片 或 者 布尔 类 型 的 list。 用 户 可 以 通过 索引 获得 ndarray 的 一 个 切片 ,与 
Python 中 的 list 不 同 的 是 ,用 户 获 得 的 切片 是 原始 ndarray 的 视图 ,所 以 对 于 切片 的 
修改 即 是 对 原始 ndarray 的 修改 。 


Code 4-7 一 维 数 组 索引 示例 





In [1]: arr = np.arange(0,12)*4 
In [2]: arr 


Out [2]: array([ 0, 4, 8, 12, 16, 20, 24, 28, 32, 36, 40, 44]) 
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arr.shape 

a2,) 

arr[0] 

0 

arr[2:5] 

array([ 8, 12, 16]) 

arr[9:2:- 1] 

array([36, 32, 28, 24, 20, 16, 12]) 
arr[[3,2,4]] 

array([12, 8, 16]) 





在 多 维 的 ndarray 中 可 以 对 各 个 元 素 进行 递归 访问 ,也 可 以 传人 一 个 以 逗号 隔 开 


的 列表 来 选取 


单个 索引 ,如 果 读 者 对 此 不 是 很 理解 ,可 以 看 Code 4-8 所 示 的 示例 。 如 


果 省 略 了 后 面 几 项 索引 , 则 返回 对 象 是 维度 低 一 些 的 ndarray, 见 Code 4-9。 若 只 是 
指定 第 一 个 维度 的 值 , 则 得 到 的 ndarray 少 了 一 个 维度 ,但 是 shape 与 原来 的 ndarray 
的 后 两 个 维度 一 致 。 


Code 4-8 ”多 维 数组 索引 示例 一 








In [1]: arr = (np.arange(0,12) * 4). reshape(3,2,2) 
In [2]: arr 
Out [2]: array([[[ 0, 4], 

[ 8, 12]], 

[[16, 20], 

[24, 28]], 

[[32, 36], 

[40, 44]]]) 
In [3]: arr.shape 
Out [3]: (3,2, 2) 
In [4]: err[2][1][0] 
Out [4]: 40 
In [5]: arr[2,1,0] 
Out [5]: 40 

Code 4-9 多 维 数组 索引 示例 二 

In [1]: arr = (np.arange(0,12) * 4).reshape(3,2,2) 
In [2]: arr 
Out [2]: array([[[ 0, 4], 


In [3] 
Out [3]: 
In [4]: 
Out [4]: 


In [5]: 
Out [5]: 
In [6]: 
Out [6]: 
In [7]: 
Out. [7]: 





| 394 





[ 8, 12]], 


[[16, 20], 
[24, 28]], 
[[32, 36], 
[40, 44]]]) 

arr.shape 

(3, 2, 2) 

arr[1] 

array([[16, 20], 

[24, 28]]) 

arr[1]. shape 

(2, 2) 

arr[1,1] 

array([24, 28]) 

arr[1,1,1] 

28 
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针对 ndarray 的 迭代 ,一 维 数组 与 Python 的 list 相同 ,如 果 是 多 维 数组 , 则 默认 
针对 第 一 个 维度 进行 迭代 ,也 可 以 通过 ndarray 的 flat 属性 实现 对 ndarray 逐个 元 素 
进行 迭代 , 见 Code 4-10。 





Code 4-10 多维 数组 索引 示例 二 


arr = np.arange(0,12,2).reshape(2,3) 
arr 
array([[ 0, 2, 4], 


[ 6, 8, 10]]) 

for item in arr: 

print "item:", item 
item: [0 2 4] 
item: [ 6 8 10] 
for item in arr. flat: 

print "item:", item 
item: 0 
item: 2 
item: 4 
item: 6 
item: 8 


item: 10 
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4.3 ndarray 的 shape 的 操作 


ndarray 对 象 的 shape 可 以 通过 多 种 命令 来 改变 ,修改 的 方式 如 表 4-4 所 示 。 某 
JC pg X] ndarray 本 身 进行 改变 ,如 resize() 函 数 ; 有 些 则 是 返回 一 个 新 的 ndarray 
对 象 , 不 改变 原来 的 ndarray, 如 reshapeO PRA , reval O PRAE. T IRTE. 


表 4-4 修改 ndarray 的 shape 























函数 名 /属性 名 | 是 否 修改 原 ndarray 对 象 功能 描述 
A z 将 ndarray 的 shape 按照 传人 的 参数 进行 修改 ,返回 
p 一 个 新 的 ndarray 对 象 
将 多 维 ndarray 的 shape 改 为 一 维 ,返回 一 个 一 维 
Teval() 
的 ndarray 
T 否 返回 原 ndarray 对 象 的 转 置 
resize() 是 将 ndarray 的 shape 按照 传人 的 参数 进行 修改 


4.4 ndarray 的 基础 操作 


对 于 一 些 用 于 标量 的 算术 运算 , NumPy 可 以 通过 广播 的 方式 将 其 作用 到 
ndarray 的 每 个 元 素 上 ,返回 一 个 或 者 多 个 新 的 矢量 , 见 Code 4-11。 例 如 ,对 一 个 
ndarray 对 象 进行 加 一 个 标量 的 运算 ,会 对 ndarray 对 象 的 每 一 个 元 素 进行 与 标量 相 
加 的 操作 ,得 到 一 个 新 的 ndarray 并 返回 。 此 外 ,同样 可 以 通过 通用 函数 (ufunc) 对 
ndarray 中 的 数据 进行 元 素 级 的 操作 ,这 是 将 一 些 本 来 运用 于 一 个 或 者 多 个 标量 的 操 
作 运 用 在 一 个 或 者 多 个 矢量 的 每 一 个 元 素 ( 即 一 个 标量 ) 上 ,得 到 一 组 结果 ,返回 一 个 
或 者 多 个 新 的 矢量 (多 个 的 情况 比较 少见 ) 。 通 用 函数 有 一 元 操作 ( 见 Code 4-12) 和 
二 元 操作 ( 见 Code 4-13) ,本 书 列 出 常用 的 通用 函数 并 给 出 一 些 示 例 , 更 深层 次 的 应 
用 待 读 者 自己 挖掘 。 
Code 4-11 元 素 级 算术 运算 示例 





In [1]: arr a = np.arange(0,12,2).reshape(3,2) 
In [2]: arra 
Out [2]: array([[ 0, 2], 
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O 
[ 4, 6], 
[ 8, 10]]) 
In [3]: arra *1 
Out [3]: array([[ 1, 3], 
[5,7], 
[9, 11]]) 
In [4]: arr b = np.ones((3,2),dtype= 'float64') 
In [5]: arr_b 
Out [5]: array([[ 1., 1.], 
[1.,1.], 
[1.,3.11) 
In [6]: arr c = arr a*tarr b 
In [7]: arr c 
Out [7]: array([[ 1., 3. ], 
[5.,7.], 
[9., 11.]]) 
In [8]: arr c.dtype 
Out [8]: dtype('float64') 
Code 4-12 ”一 元 通用 函数 示例 
In [1]: arr = np.arange(0,12,2).reshape(3,2) 
In [2]: arr exp = np.exp(arr) 
In [3]: arr exp 
Out [3]: array([[ 1.00000000e * 00, 7.38905610e * 00], 
[ 5.45981500e + 01, 4.03428793e + 02], 
[ 2.98095799e + 03, 2.20264658e + 04]]) 
In [4]: np.modf(arr exp) 
Out [4]: (array([[ 0. , 0.3890561 ], 
[ 0.59815003, 0.42879349], 
[ 0.95798704, 0.46579481]]), 
array([[ 1.00000000e + 00, 7.00000000e + 00], 
[ 5.40000000e * 01, 4.03000000e * 02], 
[ 2.98000000e * 03, 2.20260000e * 04]])) 
Code 4-13 二 元 通用 函数 示例 
In [1]: arr a = np.arange(0,12,2).reshape(3,2) 
In [2]: arra 
Out [2]: array([[ 0, 2], 
[ 4, 6], 
[ 8, 10]]) 
In [3]: arr b = np.ones((3,2),dtype= 'float64') 
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In [4]: arr b 
Out [4]: array([[ 1., 1.], 
[3. *. p. 
[1., 1.]]) 
In [5]: np.multiply(arr a,arr b) 
Out [5]: array([[ 0., 2.], 
[4.,6.], 
[ 8., 10.]]) 





gia 
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Pandas 





Pandas 是 Python 的 一 个 开源 工具 包 , 为 Python 提供 了 高 性 能 、 简 单 易 用 的 数据 
结构 和 数据 分 析 工 具 。Pandas 提供 了 方便 的 类 表格 的 统计 操作 和 类 SQL 操作 ,使 之 
可 以 方便 地 做 一 些 数据 预 处 理工 作 ; 同时 提供 了 强大 的 缺失 值 处 理 等 功能 ,使 预 处 
理工 作 更 加 便捷 。 

Pandas 具有 以 下 特色 功能 。 

CD 索引 对 象 : 包括 简单 索引 和 多 层次 索引 。 

(2) 引擎 集成 组 合 : 用 于 汇总 和 转换 数据 集合 。 

G) 日 期 范围 生成 器 以 及 自 定 义 日 期 偏 移 (实现 自 定义 频率 )。 

(4) 输入 工具 和 输出 工具 : 从 各 种 格式 的 文件 中 (CSV、 delimited, Excel 2003) 
加 载 表 格 数据 ,以 及 快速 高 效 地 从 PyTables/HDF5 格式 中 保存 和 加 载 Pandas 
对 象 。 

(5) 标准 数据 结构 的 稀 玻 形式 : 可 以 用 于 存储 大 量 缺 失 或 者 大 量 一 致 的 数据 。 

(6) 移动 窗口 统计 (滚动 平均 值 .滚动 标准 偏差 等 ) 。 
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5.1 基本 数据 结构 


Pandas 提供 了 两 种 主要 的 数据 结构 一 一 Series 与 DataFrame, 两 者 分 别 适用 于 
一 维和 多 维 数据 ,是 在 NumPy 的 ndarray 的 基础 上 加 入 了 索引 形成 的 高 级 数据 
结构 。 

为 了 方便 ,本 书后 面 引 入 Pandas 默认 采用 Code 5-1 所 示 的 方式 。 


Code 5-1 Pandas 引入 约定 





In [1]: import pandas as pd 
In [2]: from pandas import DataFrame, Series 


在 后 面 的 代码 中 ,“pd” 均 指 代 Pandas. 


5.1.1 Series 


Series 是 Pandas 中 重要 的 数据 结构 ,类似 于 一 维 数组 与 字典 的 结合 ,是 一 个 有 标 
签 的 一 维 数组 ,同时 标签 在 Pandas 中 有 对 应 的 数据 类 型 “index”。 
1. Series 的 创建 


Series 在 创建 时 可 以 接受 很 多 种 输入 ,包括 list, NumPy 的 ndarray ,dict 甚至 标 
fit, index 参数 可 以 有 选择 性 的 传人 。 


Code 5-2 ”创建 简单 的 Series 对 象 





In [1]: obja = Series([1,2,3,4]) 
In [2]: obja 

out [2]: 0 1 

1 2 

2.3 

3.4 
dtype: int64 





在 Code 5-2 示例 中 ,由 于 在 定义 Series 时 并 没有 指定 索引 ,因此 Pandas 将 自动 
创建 一 个 0 一 n 一 1 的 序列 作为 索引 (n 为 序列 长 度 ) Series 对 象 在 输出 时 ,每 一 行为 
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Series 中 的 一 个 元 素 , 左 侧 为 索引 , 右 侧 为 值 。 
Code 5-3 ”利用 字典 创建 Series 对 象 





Is [3]: disc = ('a':1, "b'i2, 'c':3] 
In [2]: obj c = Series(disc) 
In [3]: objc 
Out [3]: a 1 
b2 
e 3 
dtype: int64 





Code 5-3 通过 字典 创建 Series 对 象 ,其 索引 默认 为 字典 的 键 值 ,也 可 以 通过 
index 参数 指定 。 


Code 5-4 指定 一 个 用 字典 创建 的 Series 对 象 的 索引 


2 
In [2]: obj d = Series(disc, index = ['a', 'b', 'd']) 
In [3]: objd 
Qut [3]: à 1 
b 2 
d NaN 
dtype: int64 


从 Code 5-4 中 可 以 看 到 ,字典 中 与 指定 索引 相 匹 配 的 值 被 放 到 了 正确 的 位 置 ,而 
不 能 匹配 的 索引 对 应 的 值 被 标记 为 NaN, 这 个 过 程 叫 数据 对 齐 , 在 后 面 的 章节 会 讲 
到 。NaN Bl Not a Number( 非 数字 ) ,在 Pandas 中 用 来 表示 缺失 值 。 


2. Series 的 访问 


Series 像 一 个 ndarray, 可 以 使 用 类 似 访问 ndarray 的 方式 对 其 进行 访问 ; 同时 它 
又 像 一 个 固定 大 小 的 dict, 所 以 可 以 用 iloc() 函 数 和 loc() 函 数 对 Series 进行 访问 。 
此 外 ,也 可 以 直接 通过 类 似 数组 和 类 似 属 性 的 方式 对 其 进行 访问 ,Code 5-5 给 出 了 一 
个 简单 的 示例 ,具体 的 访问 细节 可 以 参看 介绍 索引 操作 的 章节 。 


Code 5-5 利用 索引 值 筛选 Series 对 象 中 的 值 





In [3]: obj b['a'] 
Out [3]: 1 
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In [4]: 
Out [4]: 


In [5]: 
In [6]: 
out [6]: 
In [7]: 
Out [7]: 


obj b[['a', 'b', 'c']] 
a 1 

b. 2 

e 3 

dtype: int64 

obj b['d'] = 100 
obj b['d'] 

100 

obj b.d 

100 





至 此 可 以 发 现 , Series 与 Python 基本 数据 结构 中 的 “字典 ”十 分 类 似 。 严 格 来 
HF, Series 可 以 理解 为 一 个 定 长、 有 序 的 “字典 ”结构 ,在 一 些 需要 “字典 ”结构 的 地 方 
也 可 以 使 用 Series。 


3. Series 的 操作 


在 进行 数据 分 析 工 作 时 ,通常 像 数 组 一 样 对 Series 进行 循环 的 每 个 值 操作 是 没 
有 必要 的 。NumPy 对 ndarray 可 以 进行 的 操作 对 Series 同样 可 以 进行 ,但 是 由 于 索 
引 的 存在 ,在 操作 时 需要 考虑 数组 对 齐 的 问题 。 


4. Series 的 name 属性 


Series 对 象 的 索引 与 值 可 以 分 别 通过 index 与 values 属性 获取 。 例 如 ,对 于 
Code 5-2 中 的 对 象 obj_a, 其 index, values 属性 的 具体 值 如 Code 5-6 所 示 。 


Code 5-6 Series 对 象 的 index 与 values 属性 





In [3]: 
Out [3]: 
In [4]: 
Out [4]: 


obj a. index 
Inté4Index([0,1,2,3]) 
obj a. values 
array([1,2,3,4]) 





5.1.2 DataFrame 


DataFrame 是 有 标签 的 二 维 数 组 ,类 似 于 表格 ,SQL 中 的 table, 或 者 是 一 个 
Series 对 象 的 dict, 是 Pandas 中 最 常用 的 数据 结构 。DataFrame 分 为 行 索 引 (index) 


和 列 索 引 (columns) 。 


1. DataFrame 的 创建 
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DataFrame 的 创建 可 以 接受 很 多 种 输入 ,包括 值 为 一 维 的 ndarray, list, dict 或 者 
Series 的 dict; 二 维 的 ndarray; 一 个 Series; 以 及 其 他 的 DataFrame 等 。 在 创建 
DataFrame 时 , 行 索引 和 列 索 引 可 以 通过 index 和 columns 参数 指定 , 若 没 有 明确 给 
出 , 则 使 用 默认 值 ,默认 值 为 从 0 开始 的 连续 数字 。 对 于 通过 Series 的 dict 创建 
DataFrame 的 情况 , 若 指定 index, 则 会 丢弃 所 有 未 和 指定 index 匹配 的 数据 。 


in. [2]: 
in [2]: 
In [3]: 
Out [3]: 


Code 5-7 ”通过 值 为 list 的 dict 创建 一 个 DataFrame 对 象 


dict = ('a':[1,2,3], 'b':[4,5,6], 'c':[7,8,9]) 


obj a = DataFrame(dict) 


obj a 
a 
0 1 
1 2 
2 3 


ous v 


eona 


如 Code 5-7 所 示 ,与 Series 类 似 ,DataFrame 对 象 在 创建 时 会 默认 使 用 字典 中 的 
键 值 作为 列 索引 , 行 索引 默认 为 一 个 0 一 "一 1 的 序列 (n 为 行 数 )。 用 户 也 可 以 使 用 
columns 参数 指定 列 索引 ,如 Code 5-8 所 示 ,字典 中 的 数据 会 按照 指定 的 顺序 排列 ， 


未 定义 的 数据 会 标记 为 NaN, 


in [1k 
In [2]: 
In [3]: 
Out [3]: 


Code 5-8 ”使 用 columns 参数 指定 列 索引 


dict = ('a':[1,2,3], 'b':[4,5,6], 'c':(7,8,9]) 
obj b = DataFrame(dict, columns = ['b', 'a', 'd']) 


obj b 
b 
0 4 
2 5 
2 6 


wnep 


d 
NaN 
NaN 
NaN 





DataFrame 的 行 索引 、 列 索引 与 数据 可 以 通过 columns index 以 及 values 获取 。 
对 于 Code 5-8 中 的 obj_b, 其 columns,index 以 及 values 属性 的 具体 值 如 Code 5-9 


Bim. 
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Code 5-9 DataFrame 对 象 的 columns .index 以 及 values 属性 





In [1]: obj_b.columns 
Out [1]: Index(['b', 'a', 'd'], dtype- 'object') 
In [2]: obj b.index 
Out [2]: RangeIndex(start = 0, stop-3, step-1) 
In [3]: obj b.values 
Out [3]: array( [[4, 1, nan], 

[5, 2, nan], 

[6, 3, nan]], dtype- object) 





Code 5-10  f& 29 Series X1 $& Bj dict 创建 一 个 DataFrame X1 & 





In [1]: dict ser = ('one':pd.Series([1,2,3], index = ['a','b','c']), 
"two':pd.Series([4,5,6], index = ['b','c','d'])) 
In [2]: df dict ser - pd.DataFrame(dict ser) 
In [3]: df dict ser 
Out [3]: one two 
1.0 NaN 
2.0 4.0 
3.0 5.0 
NaN 6.0 
In [4]: pd.DataFrame(dict ser,index - ['c','d','e']) 
Out [4]: one two 
e 3.0 5.0 
d NaN 6.0 
e NaN NaN 


& 0o c v 


In [5]: pd.DataFrame.from dict(dict ser,orient = 'index') 
Out [5]: be d a 

one 2 3 NaN 1.0 

two 4 5 6.0 NaN 





Code 5-10 示例 完成 了 从 Series 对 象 的 dict 中 创建 DataFrame 对 象 ,每 个 Series 
为 一 列 , 若 不 指定 index, 则 会 以 所 有 Series index 属性 的 并 集 作 为 DataFrame 的 
index, 若 某 个 Series 中 不 存在 对 应 的 index. WERA NaN; 若 指 定 index, 则 会 与 指定 
索引 相 匹 配 ,不 能 匹配 的 索引 对 应 的 值 被 标记 为 NaN。 用 户 也 可 以 通过 from_dictO K 
数 完成 Dataframe 对 象 的 创建 ,要 求 data 是 一 个 dict,from_dict() 的 orient 参数 的 默 
认 值 为 'columns', 可 以 修改 为 'index', 生 成 DataFrame 的 index 和 columns 与 参数 值 
为 'columns' 时 相反 。 
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Code 5-11 通过 一 个 元 素 为 dict 的 list 创建 DataFrame 对 象 





In [1]: list dict = [('a':1, 'b':2), 
(7b':3,*e':3]] 
In [2]: pd.DataFrame(list dict) 
Out [2]: a b c 
0 1.0 2 NaN 
1 NaN 3 3.0 





在 Code 5-11 示例 中 ,每 一 个 diet 作为 一 列 ,key 值 作为 列 名 ,key 值 不 存在 的 设 
为 NaN, 若 不 指定 index,index 则 为 默认 值 。 


Code 5-12 ”通过 一 个 Series 对 象 创建 DataFrame 对 象 


In [1]: ser = pd.Series([1,2,3], index = ['a','b', 'c'],name= 'serl') 
In [2]: pd.DataFrame(ser) 
Out [2]: serl 

a 1 

b2 

c 3 


Code 5-12 示例 展示 了 如 何 利用 一 个 Series 对 象 创建 DataFrame 对 象 ,一 个 
Series 为 一 列 ,name 值 为 其 列 名 。 
2. DataFrame 的 访问 


作为 一 个 类 似 表 格 的 数据 类 型 .DataFrame 的 访问 方式 有 多 种 ,可 以 通过 列 索 
引 , 也 可 以 通过 行 索引 进行 访问 ,具体 说 明 在 5. 2 节 ,Code 5-13 先 给 出 了 一 些 简单 
示例 。 


Code 5-13 DataFrame 对 象 的 访问 





In [1]: df = pd.DataFrame(np. random. randn(4,5), columns = list('ABCDE'), index = 
range(1,5)) 


In [2]: df 

Out [2]: A B c D E 
1 1. 006230 — 0.099909 -1.581663  - 0.850088 1.505144 
2 -0.594370 0. 220057 1.356661 -1.464286  — 0.382851 
3 -2.081844 —1.546638 -0.383995 0. 036639 1.037210 
4 -1.447071 -2.357322 -1.676906 -2.264452 -1.268260 
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Out [3]: A 1.006230 

B -—0.099909 

C -1.581663 

D -0.850088 

E 1.505144 

Name: 1, dtype: float64 
In [4]: df.loc[1, 'A'] 

Out [4]: 1.006230383161022 

In [5]: df['A'] 

Out [5]: 1 - 1.005654 


2 -0.508373 
3 1. 008788 
4 -0.482176 


Name: A, dtype: float64 
In [6]: df['A'][1] 


Out [6]: —0.17250592607902437 
In [7]: df.iloc[0:2] 
Out [7]: A B c D E 


到 1.00623 -0.099909 -1.581663 -0.850088 1.505144 
2 -0.59437 0.220057 1.356661 -1.464286 - 0.382851 


Code 5-13 示例 通过 loc 对 DataFrame 进行 了 基于 行 索引 标签 的 访问 ,用 户 也 可 
以 直接 通过 列 索引 标签 对 DataFrame 进行 访问 ,iloc 则 是 基于 行 索引 的 位 置 进行 
访问 。 

DataFrame 本 身 可 以 进行 很 多 算术 操作 ,包括 加 / 减 / 乘 / 除 、 转 置 ,NumPy Xh E 
阵 可 以 进行 的 一 系列 操作 函数 都 可 以 运用 于 DataFrame, 但 是 要 注意 数据 对 齐 
问题 。 

Code 5-14、Code 5-15、Code 5-16 分 别 为 对 DataFrame 对 象 的 drop 操作 、del 操 
作 和 pop 操作 。 


Code 5-14 DataFrame 对 和 象 的 drop 操作 





In [1]: df = pd.DataFrame (np. random. randn(4,5),, 
columns - list('ABCDE'), 
index - range(1,5)) 


Out [2]: A B c D E 
2 1.006230 -0.099909 -1.581663 -0.850088 1.505144 
2 -0.594370 0.220057 1.356661  Á—1.464286  — 0.382851 
3 一 2.081844 -1.546638  — 0.383995 0.036639 1.037210 
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4 -1.447071 -2.357322 -1.676906 -2.264452 -1.268260 
In [3]: df.drop(['A'],axis=1) 
Out [3]: B c D E 
1 -0.099909 -1.581663  —0.850088 1.505144 
2 0.220057 1.356661  —1.464286  — 0.382851 
3  —1.546638 一 0.383995 0.036639 1.037210 
4 -2.357322 -1.676906 -2.264452 -1.268260 
In [4]: df.drop(i,inplace- True) 
In [5]: df 
Out [5]: A B € D E 
2 —0.594370 0.220057 1.356661 -1.464286  — 0.382851 
3 -2.081844 -1.546638 -0.383995 0. 036639 1.037210 
4 -—1.447071 -2.357322 -1.676906 -2.264452 -1.268260 





Code 5-15 DataFrame 对 象 的 del 操作 


In [1]: del df['A'] 

In [2]: df 

Out [2]: B c D E 
2 0.220057 1.356661 -1.464286 -0.382851 
3 -1.546638 -0.383995 0.036639 1.037210 
4 -2.357322 -1.676906 -2.264452 -1.268260 


Code 5-16 DataFrame 对 象 的 pop 操作 


In [1]: column B = df.pop('B') 

In [2]: Column B 

Qut [2]: 2 0.220057 
3 -1.546638 
4 -2.357322 
Name: B, dtype: float64 

In [3]: type(Column B) 

Out [3]: «class 'pandas. core. series. Series'> 

In [4]: df 

Out [4]: ë D E 
2 1.356661 -1.464286  — 0.382851 
3 -0.383995 0.036639 1.037210 
4 —1.676906 -2.264452  — 1.268260 





drop. ,del 和 pop 操作 对 具体 说 明 如 表 5-1 所 示 。 
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表 5-1 DataFrame 的 删除 操作 
操 作 功 能 是 否 改 变 原 DataFrame 对 象 
del 对 DataFrame 完成 列 的 删除 是 
对 DataFrame 完成 列 的 删除 , 并 以 
POP | Series 对 象 返回 被 副 除 列 a 
inplace 参数 默认 为 False, 若 不 指定 inpace = 
对 DataFrame 完成 行 或 列 的 删除 ,默认 | True, 则 不 会 对 原 DataFrame 对 象 进行 改 
drop axis 一 0, 是 对 行 的 删除 , 当 指定 axis— 1 | 变 , 而 是 返回 一 个 新 的 DataFrame 对 象 ,所 





时 则 是 对 列 的 删除 





以 Code 5-14 示例 中 通过 In[3] 最 后 的 df 并 
没有 删除 'A' 列 





Code 5-17 为 DataFrame 对 象 的 增加 列 操作 。 


In 
In 


In 
In 
Out 


In 
In 
Out 


In 


In 


[1]: 
[2]: 
Out [2]: 


[3]: 
[4]: 
[4]: 


[5]: 
[6]: 
[6]: 


[7]: 
[8]: 
Out [8]: 


Code 5-17  DataFrame 对 象 的 增加 列 操 作 


d£['F'] = 'f' 
Df 

c D E F 
2 1.356661 -1.464286 -0.382851 f 
3 -0.383995 0. 036639 1.037210 £. 
4 -1.676906 -2.264452 -1.268260 f 
df['part_C'] = df['C'][:2] 
df 

c D E F part C 
2 1.356661  Á—1.464286  — 0.382851 E 1.356661 
3 -0.383995 0.036639 1.037210 £ — 0. 383995 
4 -1.676906 -2.264452 -1.268260 f NaN 
df['G'] = pd.Series([ 'one', 'two', 'three', 'four'],index = [1,2,3,4]) 
df 

e D E F part C G 
2 1.356661  Á—1.464286  — 0.382851 f 1.356661 two 
3 -0.383995 0. 036639 1.037210 £f — 0.383995 three 
4 -1.676906 -2.264452 -1.268260 f NaN four 
df. insert(0, 'before C',df['C']) 
df 

before C c D E F part C G 

2 1.356661 1.356661 -1.464286  — 0.382851 E 1.356661 two 
3  —0.383995 =0.383995 0. 036639 1.037210 f -0.383995 three 
4 -1.676906 -1.676906 -2.264452 -1.268260 £ NaN four 





Code 5-17 示例 展示 了 为 DataFrame 对 象 增 加 列 的 简单 操作 ,用户 可 以 通过 直接 
为 一 个 不 存在 的 列 添加 值 的 方式 插入 一 列 , 可 以 传人 一 个 标量 值 , 此 时 会 通过 广播 的 
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形式 填充 整个 列 ; 也 可 以 通过 传人 一 个 Series 对 象 来 插入 一 列 , 如 果 index 不 匹配 ， 
将 会 遵循 DataFrame 对 象 的 index, 不 存在 的 赋值 NaN. 


5.2 基于 Pandas 的 Index 对 象 的 访问 操作 


Pandas 中 的 索引 使 得 用 户 可 以 简便 地 获取 数据 集 的 子 集 ,进行 分 片 、 分 块 等 操 
作 ,主要 集中 在 对 Series 和 DataFrame 的 索引 操作 上 。 访问 操作 主要 包括 索引 、 选 取 
和 过 滤 。 


5.2.1 Pandas 的 Index 对 象 


前 面 所 介绍 Pandas 中 的 两 个 重要 的 数据 结构 都 具备 索引 ,Series 中 的 index 属 
TE , DataFrame 中 的 index 属性 和 columns 属性 都 是 Pandas 的 Index XJ $$ 9. Pandas 
的 Index 对 象 负责 管理 轴 标 签 和 其 他 元 素 ( 如 轴 名 称 等 ), 如 Code 5-18 所 示 。 在 创建 
Series 和 DataFrame 时 用 到 的 数组 或 者 dict 等 其 他 序列 的 标签 都 会 转换 为 Index 对 
象 。Index 的 特征 包括 不 可 修改 ,有 序 及 可 切片 。 其 中 一 个 重要 的 特征 是 不 可 修改 ， 
只 有 这 样 才能 保证 在 多 个 数据 结构 间 的 安全 共享 ,如 Code 5-19 所 示 。 


Code 5-18 ”获取 DataFrame 的 index 和 columns 属性 


In [1]: dates = pd.date_range('1/1/2000', periods = 8) 

In [2]: df = pd.DataFrame(np. random.randn(8, 4), index- dates, columns = ['A', 'B', 'C', 'D']) 

In [3]: df 

Out [3]: A B ë D 
2000 - 01 - 01 0.377461 -0.910223 -0.520959  — 1.349375 
2000-01-02 -0.416904 -1.752739 -0.949096 0.115223 
2000 - 01 - 03 0.408090 0.120493 -0.683151 一 1.631512 
2000 - 01 - 04 0.661525 - 0.606332 - 1.738339 - 0.187278 
2000-01-05 -0.813269 -0.835680 -0.413794 -0.841676 
2000 - 01 - 06 0.557145 0.180618  — 0.097099 0.003760 
2000-01-07 -0.874148 0.684596 -1.473793 - 1.083367 
2000 - 01 - 08 0. 027923 0.439115 0.005838  — 0.573425 

In [4]: df index - df.index 

In [5]: type(df index) 


O 本 书 中 首 字母 小 写 的 index 指 Series 和 DataFrame 的 index 属性 , 首 字母 大 写 的 Index 指 Pandas 的 Index 类 
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Out [5]: «class 'pandas.tseries. index.DatetimeIndex> 
In [6]: df columns - df.columns 

In [7]: type(df columns) 

Out [7]: «class 'pandas. indexes. base. Index'> 





Code 5-19 Index 对 象 的 不 可 修改 特性 





In [1]: index = pd. Index(np.arange(1,5)) 

In [2]: index 

Out [2]: Int64Index([1, 2, 3, 4], dtype= 'int64') 

In [3]: index[1] = 3 

Out [3]: Traceback (most recent call last): 
File"« stdin»", line 1, in < module> 
File "/Users/lasia/anaconda/lib/Python2. 7/site — packages 

/pandas/indexes/base.py", line 1404, in  setitem - 
raise TypeError("Index does not support mutable operations") 
TypeError: Index does not support mutable operations 


Index 对 象 有 多 种 类 型 ,常见 的 有 Index, Int64Index, MultiIndex, DatetimeIndex 
以 及 PeriodIndex。 其 中 ,Index 是 最 泛 化 的 Index 类 型 ,可 以 理解 为 其 他 类 型 的 父 类 ， 
将 轴 标 签 表 示 为 一 个 由 Python 对 象 组 成 的 NumPy 数组 ; Int64Index 则 是 针对 整数 
的 ; MultiIndex 针对 多 层 索 引 ; DatetimeIndex 则 存储 时 间 戳 ; PeriodIndex 针对 时 间 
间隔 数据 。 

关于 Index 对 象 的 一 些 基本 操作 ,Pandas 提供 了 许多 类 似 集 合 的 操作 ,包括 元 素 
是 否 在 Index 中 、 元 素 的 插入 和 删除 等 (如 Code 5-20 所 示 ) ,以 及 两 个 Index 的 连接 ， 
计算 交集 、 并 集 、 差 集 等 (如 Code 5-21 所 示 ) ,具体 的 操作 说 明 如 表 5-2 所 示 , 其 统一 
特点 是 不 改变 原 有 的 Index 对 象 。 


Code 5-20 Index 对 象 的 切片 .删除 、 插 入 操作 





In [1]: index = pd.Index(np.arange(1,5)) 

in [2]: index 

Out [2]: Int64Index([1, 2, 3, 4], dtype- 'int64') 
In [3]:  index[1:3] 

Out [3]: Int64Index([2, 3], dtype- 'int64') 

In [4]: index 2 - index.delete([0,2]) 

In [5]: Index 2 

Out [5]: Int64Index([2, 4], dtype- 'int64') 

In [6]: index 3 = index.drop(2) 
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In [7]: Index 3 

Out [7]: Inté4Index([1, 3, 4], dtype- 'int64') 

In [8]: index 4 = index. insert(1,5) 

In [9]: Index 4 

Out [9]: Int64Index([1, 5, 2, 3, 4], dtype- 'int64") 
In [10]: index 

Out [10]: Int64Index([1, 2, 3, 4], dtype- 'int64') 





Code 5-21 Index 对 象 间 的 并 、 交 、 差 等 操作 





Se gp» index a = pd.Index(['a', 'c', 'e']) 

i [2]: index b = pd. Index(['b', 'd', 'e']) 

In [3]: index c - index a.append(index b) 

In [4]: index c 

Out [4]: Index([u'a', u'c', u'e', u'b', u'd', u'e'], dtype- 'object') 
In [5]: index d = index a.union(index b) 

In [6]: Index d 

Out [6]: — Index([u'a', u'b', u'c', u'd', u'e'], dtype- 'object') 
in [7]: index e - index a.difference(index b) 

In [8]: Index e 

Out [8]: Index([u'a', u'c'], dtype- 'object') 

In [9]: index f = index a. intersection(index b) 

In [10]: Index f 

Out [10]: Index([u'e'], dtype- 'object') 

In [11]: Index a 

Out [11]: Int64Index([1, 2, 3, 4], dtype- 'int64') 





表 5-2 Index 对 象 的 函数 说 明 




















K 数 说 明 示 A 

delete WERI i 处 的 元 素 , 返 回 新 的 Index 对 象 (可 以 传人 索 
引 的 数组 ) 

dropO 删除 传人 的 元 素 e, 返 回 新 的 Index 对 象 (可 以 传人 元 素 Code 5-20 
的 数组 ) 

insert() 将 元 素 插入 到 索引 i 处 ,返回 新 的 Index 对 象 

append() 连接 另 一 个 Index 对 象 ,返回 新 的 Index 对 象 

union() 与 男 一 个 Index 对 象 进行 并 操作 ,返回 两 者 的 并 集 Code 5-21 

difference) 与 另 一 个 Index 对 象 进行 差 操作 ,返回 两 者 的 差 集 





Jntersection() 与 另 一 个 Index 对 象 进行 交 操作 ,返回 两 者 的 交集 





判断 Index 对 象 中 的 每 个 元 素 是 否 在 参数 所 给 的 数组 类 
型 对 象 中 ,返回 一 个 与 Index 对 象 长 度 相同 的 bool 数组 


isin() 





is_monotonic() 当 每 个 元 素 都 大 于 前 一 个 元 素 时 返回 True 





is_unique() 当 Index 对 象 中 没有 重复 值 时 返回 True 











uniqueO 返回 没有 重复 数据 的 Index 对 象 
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Code 5-18 示例 创建 了 一 个 DataFrame 对 象 并 获取 其 index 和 columns 属性 , 同 
时 对 其 类 型 进行 了 查看 ,类 型 包括 Index 类 型 和 DatetimeIndex 类 型 。 

Code 5-19 示例 初始 化 了 一 个 Index 对 象 并 展示 了 Index 对 象 的 不 可 修改 特性 ， 
在 修改 时 会 报 出 不 支持 修改 操作 (Index does not support mutable operations) 的 
错误 。 


5.2.2 索引 的 不 同 访问 方式 


通过 Series 和 DataFrame 的 Index 对 象 可 以 对 数据 进行 方便 、 快 捷 的 访问 。 在 
基本 数据 结构 章节 简略 介绍 了 一 些 访问 方式 ,没有 仔细 说 明 其 能 接收 哪些 数据 作为 
输入 ,以 及 它们 之 间 的 区 别 。 

索引 主要 关注 调用 方式 和 接收 参数 类 型 两 个 方面 ,在 调用 方式 方面 又 分 为 4 种 ， 
即 loc ,iloc .类似 diet 的 口 访问 方式 和 类 似 属 性 通过 *. "标识 符 的 访问 。 其 中 ,前 3 种 
访问 方式 的 输入 数据 类 型 有 些 相似 ,包括 单个 标量 ,数组 或 者 list, 布 尔 数组 或 者 回调 
函数 。 


1. 调用 方式 


1) loc 方式 
Pandas 的 loc 的 输入 主要 关注 index 的 label, 筛 选 条 件 与 label 相关 ,接收 index 
的 label 作为 参数 输入 ,如 Code 5-22 所 示 。 


Code 5-22 loc 的 基础 行 索引 的 相关 操作 





In [1]: dates = pd.date_range('1/1/2000', periods = 8) 

In [2]: df = pd.DataFrame(np.random.randn(8, 4), index- dates, columns = ['A', 'B', 'C', 'D']) 

In [3]: df 

Out [3]: A B E D 
2000-01-01 1.997470 0.202733 -0.199973 1.226511 
2000-01-02 -0.572976 -0.444118 -0.644868 1.986125 
2000-01-03 -1.493009 -0.362707 0.086507 -0.914571 
2000-01-04 0.208049 -1.721350 0.771815 -0.635762 
2000-01-05 1.821612 -0.826492 -0.377324 0.633104 
2000-01-06 0.573561 0.406416 -0.204209 2.034564 
2000-01-07 -0.507856 -0.116242 0.677616 0.147244 
2000-01-08 -0.671501 0.252203 -2.193174 0.988134 

In [4]: df.loc['2000- 01- 01'] 
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Out [4]: 1.997470 
0.202733 
— 0.199973 
1.226511 
Name: 2000- 01- 01 00:00:00, dtype: float64 
In [5]: df.loc['2000- 01- 01':'2000 - 01 - 04', ['A', 'C']] 
Out [5]: A € 
2000-01-01 1.997470 - 0.199973 
2000-01-02 -0.572976  - 0.644868 
2000-01-03 -1.493009 0.086507 


coU» 


2000-01-04 0.208049 0.771815 

In [6]: df.loc[ df['A']» 0] 

Out [6]: A B 8 D 
2000-01-01 1.997470 0.202733 -0.199973 1.226511 
2000-01-04 0.208049 - 1.721350 0.771815  - 0.635762 
2000-01-05 1.821612 -0.826492 -0.377324 0.633104 
2000-01-06 0.573561 0.406416 -0.204209 2.034564 


其 表达 形式 包括 单个 的 label, label 的 数组 或 者 label 的 分 片 (slice) 等 ,可 以 接收 
一 个 布尔 数组 作为 参数 输入 ,还 可 以 接收 调用 loc 的 对 象 (Series 或 者 DataFrame 类 
型 ) 的 回调 函数 作为 参数 输入 。 

2) iloc 方 式 

iloc 与 loc 不 同 , 关 注 的 是 index 的 position。index 的 position 作为 参数 输入 , 包 
括 表示 position 的 单个 整数 、 数 组 和 分 片 (slice) 等 几 种 表达 形式 ,可 以 接收 一 个 布尔 
数组 作为 参数 输入 ,还 可 以 接收 调用 loc 的 对 象 (Series 或 者 DataFrame 类 型 ) 的 回调 
函数 作为 参数 输入 ,如 Code 5-23 所 示 。 


Code 5-23 iloc 的 基础 行 索引 的 相关 操作 





In [1]: dates = pd.date range('1/1/2000', periods = 8) 

In [2]: df = pd.DataFrame(np.random.randn(8, 4), index- dates, columns = ['A', 'B', 'C', 'D']) 

In [3]: df 

Out [3]: A B c D 
2000-01-01 1.997470 0.202733 -0.199973 1.226511 
2000-01-02 -0.572976 -0.444118 -0.644868 1.986125 
2000-01-03 -1.493009 -0.362707 0.086507 -0.914571 
2000-01-04 0.208049 -1.721350 0.771815  - 0.635762 
2000-01-05 1.821612 -0.826492 -0.377324 0.633104 
2000-01-06 0.573561 0.406416 -0.204209 2.034564 
2000-01-07 -0.507856 -0.116242 0.677616 0.147244 


o 
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2000-01-08 -0.671501 0.252203 -2.193174 0.988134 
In [4]: df.iloc[0] 
Out [4]: A 1.997470 


B 0.202733 
C -0.199973 
D 1.226511 


Name: 2000-01-01 00:00:00, dtype: float64 

In [5]: df.iloc[[0,4],1:3] 

Out [5]: B C 
2000-01-01 0.202733 - 0.199973 
2000-01-05 -0.826492  - 0.377324 





3) 类 似 dict 方式 的 访问 

用 户 可 以 将 Series 看 作 一 个 dict. 而 DataFrame 相当 于 每 一 个 元 素 是 Series 的 
dict, 所 以 可 以 用 类 似 访问 diet 的 方式 来 访问 Series 和 DataFrame, 如 Code 5-24 
所 示 。 


Code 5-24 ”基础 列 索 引 的 相关 操作 


In [1]: dates = pd.date range('1/1/2000', periods = 8) 
In [2]: df = pd.DataFrame(np. random.randn(8, 4), index- dates, columns = ['A', 'B', 'C', 'D']) 
In [3]: df 
Out [3]: A B c D 
2000-01-01 1.997470 0.202733 -0.199973 1.226511 
2000-01-02 -0.572976 -0.444118  — 0.644868 1.986125 
2000-01-03 -1.493009 -0.362707 0.086507 -0.914571 
2000 - 01 - 04 0.208049  Á— 1.721350 0.771815  - 0.635762 
2000 - 01 - 05 1.821612 -0.826492  — 0.377324 0.633104 
2000 - 01 - 06 0.573561 0.406416  — 0.204209 2.034564 
2000-01-07 -0.507856 -0.116242 0.677616 0.147244 
2000-01-08 -0.671501 0.252203 -2.193174 0.988134 
In [4]: df['A'] 
Out [4]: 2000-01-01 1.997470 
2000-01-02 -0.572976 
2000-01-03  -1.493009 
2000 - 01 - 04 0. 208049 
2000 - 01 - 05 1.821612 
2000 - 01 - 06 0.573561 
2000-01-07 -0.507856 
2000-01-08 -0.671501 
Freq: D, Name: A, dtype: float64 
In [5]: type(df['A']) 
Out [5]: pandas. core. series. Series 
In [6]: df[['A','B']] 
Out [6]: A B 
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2000 - 01 - 01 1.997470 0. 202733 
2000-01-02 -0.572976 -0.444118 
2000-01-03 -1.493009  — 0.362707 
2000 - 01 - 04 0.208049 -1.721350 
2000 - 01 - 05 1.821612  — 0.826492 
2000 - 01 - 06 0.573561 0.406416 
2000-01-07 -0.507856 -0.116242 
2000-01-08 -0.671501 0.252203 

In [7]: type(df[['A', 'B']]) 

Out [7]: pandas. core. frame. DataFrame 

In [8]: df['2000- 01- 01':'2000 - 01- 04] 

Out [8]: A B € D 
2000 - 01 - 01 1.997470 0.202733 - 0.199973 1.226511 
2000-01-02 -0.572976 -0.444118 -0.644868 1.986125 
2000-01-03 -1.493009 -0.362707 0.086507 -0.914571 
2000 - 01-04 0.208049 -1.721350 0.771815 -0.635762 


4) 类 似 属 性 方式 的 访问 
其 参数 类 型 包括 单个 变量 .数组 形式 (list 或 者 NumPy 的 ndarray)\ 布 尔 数组 或 
者 回调 函数 。 


2. 调用 方式 间 的 区 别 


1) loc 和 iloc 的 区 别 

loc 和 iloc 都 是 对 index 的 访问 (Series 的 index 和 DataFrame 的 index), 对 于 
DataFrame 也 可 以 实现 对 某 个 index 下 的 某 个 column 的 访问 。 它 们 接收 的 数据 类 型 
相同 但 是 含义 不 同 ,loc 接收 Index 对 象 (index 和 columns) 的 label, 而 iloc 接收 Index 
对 象 (index 和 columns) fff position, 

2) 通过 loc 访问 和 通过 [访问 的 区 别 

loc 和 [都 是 接收 Index 对 象 (index 和 columns) 的 label 作为 参数 ,但 是 loc 是 对 
index 的 访问 (Series 的 index 和 DataFrame 的 index).[] 在 DataFrame 中 则 是 对 
columns 的 访问 ,在 Series 中 无 差别 。 


3. 特殊 的 输入 类 型 


1) 输入 为 布尔 类 型 数组 
使 用 布尔 类 型 数组 作为 输入 参数 也 是 常见 的 操作 之 一 ,可 用 的 运算 符 有 | (表示 
或 运算 )、&( 表 示 与 运算 ) 以 及 一 (表示 非 运 算 ), 但 注意 要 使 用 圆 括 号 来 组 合 。 
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2) 输入 为 回调 函数 
loc.iloc 和 [] 都 能 以 回调 函数 作为 输入 来 进行 访问 ,这 个 回调 函数 必须 以 被 访问 
的 Series 或 者 DataFrame 作为 参数 。 


5.3 数学 统计 和 计算 工具 


5.3.1 统计 函数 : 协 方差 .相关 系数 .排序 


Pandas 提供 了 一 系列 统计 函数 接口 ,方便 用 户 直接 进行 统计 运算 ,包括 协 方差 、 
相关 系数 ,排序 等 。Pandas 提供 了 两 个 Series 对 象 之 间 的 协 方差 计算 功能 ,以 及 一 个 
DataFrame 的 协 方差 矩阵 的 计算 接口 。 

Code 5-25 展示 了 Series 对 象 之 间 的 协 方差 计算 。 


Code 5-25 Series 对象 之 间 的 协 方差 计算 


In [1]: series 1 = Series(np. random. randn(10)) 
In [2]: series 2 = Series(np. random. randn(10)) 
In [3]: series 1 
out [3]: 0 3.066290 
1 -1.101062 
2 0.561304 
3 1.730506 
4 1.558158 
5 0.561590 
6 -2.144566 
7  —0.784433 
8 -0.130903 
9 -0.510790 
dtype: float64 
In [4]: series_2 
Out [4]: 0 0.261430 
1 0.898765 
2 0.612580 
3 1.234522 
4 -0.232797 
5 1.142626 
6 -0.033724 
7 —1.4675T71 
8 -0.754890 
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9  —1.020047 
dtype: float64 
In [5]: series 1.cov(series 2) 
Out [5]: 0.47052410745437373 
In [6]: series 2.cov(series 1) 
Out [6]: 30.47052410745437373 
In [7]: series 3 = Series(np. random. randn(8)) 
In [8]: series 3 
Out [8]: — 0.575410 
— 0.329546 
— 1.269817 
0.359972 
— 0.233465 
0.937982 
— 0.758042 
1.161482 
dtype: float64 
In [9]: series 1l.cov(series 3) 


aounmewnb ho 


Out [9]: -0.044165854630934379 
In [10]: series 1[0:8].cov(series 3) 
Out [10]:  - 0.044165854630934379 


通过 Series 对 象 提供 的 cov O 函数 可 以 计算 Series 对 象 和 另 一 个 Series 对 象 的 
协 方差 ,在 Code 5-26 示例 中 首先 计算 了 series. 1 和 series_2 的 协 方 差 , 经 过 验证 ， 
series l.cov(series 2) 与 series 2. cov(series _1) 相 等 ,这 与 协 方差 的 性 质 一 致 。 
series 1 与 series 3 的 长 度 不 同 ,同样 可 以 进行 协 方差 运算 ,结果 实际 上 是 series_1 
的 前 8 个 元 素 与 series 3 所 有 元 素 的 协 方差 ,Pandas 自动 进行 了 数据 对 齐 操作 。 


Code 5-26  DataFrame 对 象 之 间 的 协 方差 计算 





In [1]: df = DataFrame(np.random.randn(4,5), index = [1,2,3,4],columns = list('abcde')) 

In [2]: df 

Out [2]: a b c d e 
1 -—0.919210 -0.107936 -0.923730 0.498362 0.626886 
2 0.120940 .— 0.082737  — 0.746093 0.905555  — 0.735888 
3 0.119948 0.057370 -0.321150 -0.819500 0.026514 
4 -1.672109 0.271110 0.309165 -0.419110 - 0.201435 

In [3]: df.cov() 

Out [3]: a b c d e 
a 0.762927 -0.092086 -0.261618 0.117018 -0.164024 
b -0.092086 0. 030180 0.094923 -0.098350 - 0.016695 
c -0.261618 0. 094923 0.300511 -0.310956 - 0.073400 
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d 0.117018 4 — 0.098350 -0.310956 0.636266  — 0.093181 
e a—0.164024 -0.016695 -0.073400 -0.093181 0.318548 

In [4]: df.loc[df.index[0:2], a'] = np.nan 

In [5]: df 

Out [5]: a b c d e 
1 NaN —0.107936  - 0.923730 0.498362 0.626886 
2 NaN —0.082737  — 0.746093 0.905555  — 0.735888 
3 0.119948 0.057370 -0.321150 -0.819500 0.026514 
4 -1.672109 0.271110 0.309165 -0.419110 -— 0.201435 

In [6]: df.cov() 

Out [6]: a b c d e 
a 1.605736 -0.191518 -0.564781  - 0.358761 0.204248 
b -0.191518 0.030180 0.094923 -0.098350  - 0.016695 
c 一 0.564781 0. 094923 0.300511 -0.310956 - 0.073400 
d -0.358761 -0.098350 -0.310956 0.636266 - 0.093181 
e 0.204248 -0.016695 -0.073400 -0.093181 0.318548 


通过 DataFrame 提供 的 cov() 函 数 可 以 计算 DataFrame 各 个 列 之 间 的 协 方 
差 , 得 到 协 方差 矩阵 ,如 Code 5-26 所 示 。 可 以 看 到 , 协 方差 矩阵 是 一 个 对 称 矩 
阵 , 其 与 协 方差 的 性 质 一 致 。 当 DataFrame 对 象 中 存在 NaN 值 时 会 排除 它 继续 
进行 计算 。 

Pandas 提供 了 几 种 计算 相关 系数 的 方法 ,包括 皮尔 森 相关 系数 、 斯 皮尔 曼 相关 
系数 和 肯 德 森 相关 系数 ,和 协 方差 函数 相同 , 当 存 在 NaN 值 时 会 排除 它 继续 进行 
计算 。 


5.3.2 窗口 函数 


处 理 时 序数 据 时 在 移动 窗口 上 计算 统计 函数 是 十 分 常见 的 ,为 此 Pandas 提供 了 
一 系列 窗口 函数 ,其 中 包括 计数 、 求 和 、 求 平均 函数 ,以 及 中 位 数 、 相 关系 数 、 方 差 \ 协 
方差 ,标准 差 、 偏 斜 度 和 峰 度 等 函数 。 

对 于 窗口 本 身 ,Pandas 提供 了 3 种 对 象 , 即 Rolling, Expanding 和 EWM 对 象 。 


1. Rolling 对 象 


Rolling 对 象 产生 的 是 定 长 的 窗口 ,需要 通过 参数 window 指定 窗口 大 小 ,可 以 通 
过 参数 min_periods 指定 窗口 内 所 需 的 最 小 非 NaN 值 的 个 数 ,否则 在 时 间 序 列 刚 开 
始 处 尚 不 足 窗口 期 的 数据 得 到 的 均 为 NaN 值 。 
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Code 5-27 ”窗口 函数 示例 : 通过 Rolling 对 象 进行 统计 运算 





Tn [1]: 
In [2]: 
In [3]: 
In [4]: 
Out [4]: 
in [5]: 
Out [5]: 
In [6]: 
im Ey 
In [8]: 
In [9]: 
Out [9]: 
In [10]: 
In [11]: 
In [12]: 


pd. Series (np. random. randn(100), 
index = pd.date range('1/1/2000', periods = 100) ) 


s s. cumsum( ) 


E s.rolling(window- 10) 
r 
Rolling [window = 10, center = False,axis = 0] 


r.mean()[5:15] 


o 


2000 - 01 - 06 NaN 
2000 - 01- 07 NaN 
2000 - 01 - 08 NaN 
2000 - 01 - 09 NaN 
2000 - 01 - 10 3.442182 
2000-01-11 3.806517 
2000-01-12 4.154518 
2000 - 01 - 13 4.392298 
2000-01-14 4.360012 
2000-01-15 4.100243 


Freq: D, dtype: float64 

import matplotlib.pyplot as plt 
s.plot(style- 'k-- ') 
r.mean().plot(style- 'k') 

plt. show( ) 

















r 和 


Jan Feb Mar Apr 


2000 
df = pd.DataFrame(np. random. randn(100, 4), 
index = pd.date range ('1/1/2000', 
periods = 100), 
columns = ['A', 'B', 'C', 'D']) 
df = df.cumsun() 
df. rolling(window = 5).count()[0:10] 
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Out [12]: 


In [13]: 
In [14]: 
Out [14]: 


A B c D 
2000 - 01 - 01 1.0 1.0 1.0 1.0 
2000 - 01 - 02 2.0 2.0 2.0 2.0 
2000 - 01 - 03 3.0 3.0 3.0 3.0 
2000 - 01 - 04 4.0 4.0 4.0 4.0 
2000 - 01 - 05 5.0 5.0 5.0 5.0 
2000 - 01 - 06 5.0 5.0 5.0 5.0 
2000 - 01 - 07 5.0 5.0 5.0 5:0 
2000 - 01 - 08 5.0 5; 0; 5.0 5.0 
2000 - 01 - 09 5.0 5.0 5.0 5.0 
2000 - 01-10 5.0 5.0 5.0 5.0 
df. rolling(window = 5). sum(). plot(subplots = True) 


plt.show() 


















































Code 5-27 示例 展示 了 使 用 rolling() 函 数 可 以 生成 一 个 Rolling 对 象 ,并 指定 窗 
口 大 小 ,可 以 使 用 求 平均 值 . 求 和 、 计 数 等 一 系列 窗口 统计 函数 ,其 中 调用 了 Series 对 
象 和 DataFrame 对 象 的 cumsum() 函 数 计 算 累 加 和 。 在 本 例 中 仅 给 出 了 一 个 简单 的 
示例 图 像 ,具体 用 Matplotlib 库 画 图 的 方法 将 在 第 8 章 详细 介绍 。Rolling 对 象 能 够 
进行 的 统计 函数 操作 如 表 5-3 所 示 。 如 该 表 所 示 , 除 了 经 典 的 统计 函数 以 外 ,用 户 可 
以 通过 apply() 操 作 自 定义 函数 (参考 Code 5-28) ,从 数组 的 各 个 片段 中 计算 某 一 自 














定义 统计 量 。 
表 5-3 窗口 对 象 的 统计 函数 说 明 
K 数 说 — 明 
count() 移动 窗口 内 非 NaN 值 的 计数 
sum() 移动 窗口 内 的 和 
mean() 移动 窗口 内 的 平均 值 
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续 表 
[E 说 — 明 
medianO 移动 窗口 内 的 中 位 数 
min() 移动 窗口 内 的 最 小 值 
max() 移动 窗口 内 的 最 大 值 
std() 移动 窗口 内 的 无 偏 估 计 标 准 差 ( 分 母 为 n 一 1) 
var() 移动 窗口 内 的 无 偏 估 计 方 差 ( 分 母 为 n 一 1) 
skew() 移动 窗口 内 的 偏 度 
kurtO 移动 窗口 内 的 峰 度 
quantile() 移动 窗口 内 的 指定 分 位 数位 置 的 值 (传人 的 应 该 是 0 一 1 的 值 ) 
apply() 在 移动 窗口 内 使 用 普通 的 (可 以 自 定义 的 ) 数 组 函数 
covO 移动 窗口 内 的 协 方差 
corr) 移动 窗口 内 的 相关 系数 
Code 5-28 通过 apply() 自 定义 统计 函数 
In [1]: df = pd.DataFrame (np. random. randn(100, 4), 
index = pd.date range('1/1/2000', periods = 100), 
columns = ['A', 'B', 'C', 'D']) 
In [2]: df = df.cumsun() 
In [3]: def get dur(win): 
return win.max() - win.min() 
In [4]: df.rolling(window- 5,min periods - 2).apply(get dur)[0:5] 
Out [4]: LY B C D 
2000-01-01 NaN NaN NaN NaN 


2000 - 01 - 02 0.878200 0.715086 0.334314 0.529822 
2000 - 01 - 03 1.380826 1.357730 2.998010 0.529822 
2000 - 01 - 04 1.395683 2.118167 2.998010 0.529822 
2000 - 01 - 05 1.395683 2.118167 3.664276 1.200906 





2. Expanding X1 $t 


Expanding 对 象 产生 的 是 扩展 窗口 ,第 i 个 窗口 的 大 小 为 i, 可 以 将 其 看 作 特 殊 的 
window 为 数据 长 度 、min_periods 为 1 的 Rolling Xf $& . Code 5-29 通过 实例 展示 了 
Expanding 对 象 与 Rolling 对 象 的 关系 。 


Code 5-29 Expanding 对 象 与 Rolling 对 象 的 关系 





In [1]: 


df = pd.DataFrame(np. random. randn(100, 4), 
index = pd.date range( '1/1/2000', periods = 100), 


o 
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columns = ['A', 'B', 'C', 'D']) 
In [2]: df = df.cumsun() 
In [3]: df.expanding().mean()[0:10] 
Out [3]: A B c D 


2000-01-01 1.321179 -0.536058 -0.111422 1.476260 
2000 - 01 - 02 0.882079  — 0.893601 0.055735 1.211349 
2000 - 01 - 03 0.568171 — 1.226996 0.999353 1.244115 
2000 - 01 - 04 0.407502  — 1.583803 1.380664 1.214729 
2000 - 01- 05 0.356421 - 1.737582 1.815102 1.401252 
2000 - 01 - 06 0.432703  — 1.734033 1.534664 1.553687 
2000 - 01 - 07 0.539809  —1.608736 1.378663 1.612745 
2000 - 01 - 08 0.745443  —1.607935 1.266380 1.565097 
2000 - 01 - 09 0.970083 - 1.536245 1.279782 1.658089 
2000 - 01 - 10 1.042098 -1.371486 1.156417 1.793354 


In [4]: df.rolling(window- len(df) , min periods = 1).mean()[0:10] 
Out [4]: A B c D 


2000-01-01 1.321179  - 0.536058 -0.111422 1.476260 
2000 - 01 - 02 0.882079  — 0.893601 0.055735 1.211349 
2000 - 01 - 03 0.568171 - 1.226996 0.999353 1.244115 
2000 - 01 - 04 0.407502  — 1.583803 1.380664 1.214729 
2000 - 01 - 05 0.356421 - 1.737582 1.815102 1.401252 
2000 - 01 - 06 0.432703  — 1.734033 1.534664 1.553687 
2000 - 01 - 07 0.539809 - 1.608736 1. 378663 1.612745 
2000 - 01 - 08 0.745443 -1.607935 1.266380 1.565097 
2000 - 01 - 09 0.970083 -1.536245 1.279782 1.658089 
2000 - 01 - 10 1.042098 -1.371486 1.156417 1.793354 


3. EWM 对 象 


EWM 对 象 产生 指数 加 权 窗 口 ,其 中 需要 定义 衰减 因子 .定义 有 很 多 种 方式 , 包 
括 时 间 间 隔 span, MÙ center of mass、half-life( 指 数 权重 减少 到 一 半 需 要 的 时 间 ) 或 
者 直接 定义 alpha。 各 项 指标 计算 衰减 因子 的 方式 如 下 : 








2 
FT for span s> 1 
gd - 
Ix for center of mass c > 0 


1— exp ， for half-life h > 0 
衰减 因子 计算 权重 的 方式 如 下 : 
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4 
warns 
i-e 
T 
i-o 


wi = (1 — aw 


Code 5-30 为 EWM 对 象 得 到 衰减 因子 的 不 同方 式 。 


对 二 


Code 5-30 EWM 对 象 得 到 衰减 因子 的 不 同方 式 





In [1]: df = pd.DataFrame(np. random. randn(100, 4), 
index = pd.date range( '1/1/2000', periods = 100), 
columns = ['A', 'B', 'C', 'D']) 

In [2]: df = df.cumsun() 

In [3]: df.ewm(span- 3).mean()[0:5] 

Out [3]: A B c D 


2000-01-01 1.321179  - 0.536058 -0.111422 1.476260 
2000 - 01 - 02 0.735712 -1.012782 0.111454 1.123045 
2000 - 01 - 03 0.281222 一 1.516214 1.697245 1.229675 
2000 - 01 - 04 0.091502  — 2.123153 2.138500 1.174687 
2000 - 01 - 05 0.122775  —2.241628 2.868489 1.676703 


In [4]: df.ewm(com- 1).mean()[0:5] 
Out [4]: A B C D 


2000-01-01 1.321179  - 0.536058 -0.111422 1.476260 
2000 - 01 - 02 0.882079  — 0.893601 0.055735 1.211349 
2000 - 01 - 03 0.568171  — 1.226996 0.999353 1.244115 
2000 - 01 - 04 0.407502  — 1.583803 1.380664 1.214729 
2000 - 01 - 05 0.356421 - 1.737582 1.815102 1.401252 
2000 - 01 - 06 0.432703  — 1.734033 1.534664 1.553687 
2000 - 01 - 07 0.539809 -— 1.608736 1.378663 1.612745 
2000 - 01 - 08 0.745443  — 1.607935 1.266380 1.565097 
2000 - 01 - 09 0.970083  — 1.536245 1.279782 1.658089 
2000 - 01 - 10 1.042098 -1.371486 1.156417 1.793354 

In [5]: df.ewn(alpha- 0.5).mean()[0:5] 

Out [5]: A B c D 
2000-01-01 1.321179 -0.536058 -0.111422 1.476260 
2000 - 01 - 02 0.735712 -1.012782 0.111454 1.123045 
2000 - 01 - 03 0.281222 -1.516214 1.697245 1.229675 
2000 - 01 - 04 0.091502  — 2.123153 2.138500 1.174687 
2000 - 01 - 05 0.122775  — 2.241628 2.868489 1.676703 
2000 - 01 - 09 0.970083 -1.536245 1.279782 1.658089 
2000-01-10 1.042098  — 1.371486 1.156417 1.793354 
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由 Code 5-30 示例 可 知 ,定义 时 间 间 隔 span = 3, i4 com — 1 以 及 衰减 因子 
alpha—0. 5 是 等 价 的 。 


5.4 数学 聚合 和 分 组 运算 


对 于 SQL 操作 中 的 分 组 和 聚合 等 操作 ,在 Pandas 中 同样 提供 了 类 似 的 接口 实 
现 对 数据 集 进行 分 组 ,并 对 每 个 组 执行 一 定 的 操作 ,这 就 是 Pandas 中 的 group by 
功能 。 

group by 包括 split、apply、combine 几 个 阶段 ,其 中 ,split 阶段 通过 一 些 原则 将 数 
据 分 组 ; 在 apply 阶段 中 ,每 个 组 分 别 执行 一 个 函数 ,产生 一 个 新 值 ; combine 阶段 将 
各 组 的 结果 合并 到 最 终 对 象 中 。 

对 于 拆 分 操作 ,Pandas 对 象 (Series 或 者 DataFrame) 根 据 提供 的 键 在 特定 的 轴 
上 进行 拆 分 。DataFrame 可 以 指定 是 在 index 轴 还 是 columns 轴 。 对 于 拆 分 的 键 的 
形式 在 表 5-4 中 做 了 介绍 并 给 出 了 示例 ,示例 是 以 Code 5-31 所 创建 的 DataFrame 为 
例 , 具 体 拆 分 效果 将 在 稍 后 的 代码 中 展示 。 


ms 拆 分 的 键 的 形式 

















拆 分 的 键 的 形式 说 明 示 例 

和 所 选 轴 长 度 相同 的 数组 (list 

Demol df. by( list). O 
或 者 NumPy 的 array, 甚 至 是 一 is cde i Rex pi count ‘two's 'two'] 

t= ， ， ， ， 

个 Series 对 象 ) group lis: one'. 'two', 'one'. 'two'. 'two 

Demo2 df. groupby('a') 

Demo3 df. groupby(df['a' D) 
DataF. 某 个 列 名 的 值 或 者 列 
2 rad "m # 上面 两 个 表述 等 价 ,df. groupby Ca) J£ df. groupby(df[ 

is; 
'a"]) 的 简便 形式 
Demo4 df. groupby(df. loc[ 'one'],axis=1) 
Demo5 def get_index_number(index): 
if index in ['one', 'two']: 
ismati" 
参数 为 axis 的 标签 的 函数 
else : 
return 'big' 
df. groupby(get index number) 
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o 
续 表 
拆 分 的 键 的 形式 说 明 示 例 
Demo6 def get column letter group(column) : 
if column is 'a': 
return 'group a' 
参数 为 axis 的 标签 的 函数 else : 
return 'group others" 
df. groupby(get column letter group, 
axis— 1) 
Demo? ”# 该 示例 与 Demol 的 效果 相同 
字典 或 者 Series, 给 出 axis 上 的 group list = ['one', 'two', 'one', 'two', 'two'] 
值 与 分 组 名 之 间 的 对 应 关系 group series = pd. Series(group_list,index = df. index) 
df. groupby(group series) 
28 1,2,3,4 的 list 或 者 NumP. 
d ud Demo8 df. groupby(['a', 'b' D) 
的 array 


Code 5-31 创建 示例 所 使 用 的 DataFrame 对 象 


In [1]: df = DataFrame(('a':list('abcab'), 
"b':['boy', 'girl', girl','boy', 'girl'], 
'c':np. random. randn(5), 
'd':np. random. randn(5)] ) 


In [2]: df 

Out [2]: a b c d 
0 a boy 1.576954 0.485627 
1 b girl - 0.218261 1.112368 
2 c girl 1.191002  — 0.423385 
3 a boy 0.214133  - 1.142647 
4 b girl 0.152979 1.369389 


通过 groupby O 函数 将 拆 分 键 传 入 ,同时 可 以 指定 其 axis, 默 认为 0, 返 回 的 是 
Pandas 的 GroupBy 对 象 ,如 Code 5-32 所 示 , 此 时 并 未 真正 进行 计算 ,可 以 查看 
GroupBy 对 象 的 属性 及 函数 。 通 过 查看 其 属性 和 函数 ,可 以 知道 groupby 后 可 以 进 
行 一 些 怎样 的 操作 ,groupby 的 常用 函数 如 表 5-5 所 示 ,操作 示例 如 Code 5-33 所 示 o 
其 中 ,GroupBy 的 groups 属性 是 一 个 dict, 其 键 名 是 组 名 。 


Code 5-32 groupby 操作 生成 的 GroupBy 对 象 及 简单 的 count 操作 示例 





In [1]: grouped = df.groupby('b') 
In [2]: grouped 


Out [2]: 
In [3]: 
Out [3]: 
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< pandas. core. groupby. DataFrameGroupBy object at 0x1135a3550> 
grouped. count ( ) 
acd 
b 
by 2 2 2 
girl 3 3 3 





3X 5-5. GroupBy 对 象 的 常用 函数 















































BO 名 所 实现 功能 
count() 每 个 组 中 非 NA 值 的 数量 
sum()/prod() | 每 个 组 中 非 NA 值 的 和 / 积 
mean() 每 个 组 中 非 NA 值 的 平均 值 
median() 每 个 组 中 非 NA 值 的 中 位 数 
stdO /varO 每 个 组 中 无 偏 估计 的 标准 差 /方差 
min()/max() | 每 个 组 中 非 NA 值 的 最 小 值 /最 大 值 
firstO/lastO | 每 个 组 中 第 一 个 和 最 后 一 个 非 NA 值 
quantile() 每 个 组 的 样本 分 位 数 
describe() 描述 组 内 数据 的 基本 统计 量 
size) 计算 每 个 组 的 规模 (数量 ) 
head() 获取 每 个 组 的 前 行 
fillna() 填充 每 个 组 中 为 空 的 值 
xi 若 传人 数字 n, 则 返回 每 个 组 的 第 n 行 ; 若 传人 一 个 数组 , 则 会 每 个 组 返回 对 行 ; 
若 指定 参数 as_index 二 False, 则 会 返回 第 个 非 NA 值 
Code 5-33 ”groupby 操作 示例 
In [1]: df.groupby(['a', 'b']) . mean() 
Out [1]: e d 
a b 
a boy —1.417004 -0.647835 
b girl -1.384864 0.793963 
C girl -0.308348 0.260999 
In [2]: group list = ['one', two', 'one', 'two', 'two'] 
In [3]: df.groupby(group list).describe() 
Out [3]: c d 
one count 2.000000 2.000000 
mean 0.490311 — 1.085794 
std 0.771839 1.200441 
min — 0.055461 — 1.934634 
25% 0.217425 — 1.510214 
50% 0. 490311 — 1.085794 
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75% 0.763198 一 0.661374 
max 1.036084 — 0. 236954 
two count 3.000000 3.000000 
mean 0.921424 — 0. 124803 
std 0.652764 0.795241 
min 0.170523 — 1.004338 
25% 0.705364 — 0. 458946 
505 1.240206 0.086446 
7558 1.296875 0.314965 
max 1.353543 0.543484 


In [4]: df.groupby('b').head(2) 

Out [4]: a b € d 
a boy 1.211025  — 0.054924 

two b girl 0.473504 -0.268221 
c girl 0.761906 -0.087040 
a boy 1.459757 1.140943 


对 于 应 用 部 分 ,主要 实现 以 下 3 类 操作 。 

CD 聚合 操作 : 对 于 每 个 组 经 过 计算 得 到 一 个 概要 性 质 的 统计 值 ,例如 求 和 、 求 
平均 值 等 。 

(2) 转换 操作 : 对 于 每 个 组 经 过 计算 得 到 和 组 的 长 度 相 同 的 一 系列 值 ,例如 对 数 
据 的 标准 化 填充 NA 值 等 。 

G) 过 滤 操 作 : 通过 对 每 个 组 的 计算 得 到 一 个 布尔 类 型 的 值 完成 对 组 的 筛选 , 例 
如 通过 求 得 组 的 平均 值 来 筛选 组 ,或 者 在 每 个 组 内 通过 一 定 的 条 件 进行 筛选 ,如 
Code 5-33 中 的 InL4] 所 示 ,筛选 出 每 个 组 的 前 两 个 。 

groupBy 对 象 的 常用 操作 已 在 表 5-5 中 列 出 ,对 自 定义 函数 进行 操作 可 以 调用 
groupBy 对 象 的 agg O PREX , transform O PR SCRI apply( 〇 函数 。 三 者 都 能 通过 自 定义 
函数 来 完成 应 用 操作 ,agg() 函数 接受 能 将 一 维 数组 聚合 为 标量 的 函数 。 


5.4.1 agg() 鸭 数 的 聚合 操作 


除了 Pandas 给 出 的 GroupBy 对 象 的 聚合 操作 的 接口 (mean sum 等 ) 以 外 ,用 户 
还 可 以 通过 使 用 GroupBy 的 agg O (或 者 aggregate()) 函数 实现 自 定义 函数 ,如 
Code 5-34 所 示 。 通 过 agg() 还 可 以 实现 一 次 应 用 多 个 函数 ,如 Code 5-35 所 示 ,分 别 
完成 了 对 df 的 c 列 和 d 列 的 自 定义 函数 dur()( 在 Code 5-34 中 定义 ) 和 mean() 函 数 
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的 聚合 操作 ,每 一 列 返 回 两 个 结果 ; 还 可 以 对 不 同 列 使 用 不 同 的 函数 ,如 Code 5-36 
所 示 ,将 所 得 结果 与 Code 5-35 的 结果 对 比 ,发 现 对 c 列 实现 了 自 定义 函数 durO (在 


Code 5-34 中 定义 ) ,对 d 列 实现 了 mean() 函数 。 


Code 5-34 ”使 用 自 定义 函数 进行 聚合 (agg) 操 作 





In [1]: def dur(arr): 
return arr.max() -arr.min() 
In [2]: df.groupby(df['b']).agg(dur) 
Out [2]: c d 
b 
boy 0.248732 1.195867 
girl 1.786030 1.304943 





Code 5-35 ”通过 agg() 函 数 实现 一 次 进行 多 个 聚合 操作 


In [1]: df.groupby(df['b']).agg([dur, 'nean']) 
Out [1]: c d 
dur mean dur mean 
b 


boy 0.248732 1.335391 1.195867 0.543010 


girl 1.786030 0.070428 1.304943  — 0.582415 


Code 5-36 通过 agg() 函 数 实现 对 不 同 列 使 用 不 同 的 函数 


In [1]: df.groupby(df[ 'b']). agg( [dur, 'nean']) 
Out [1]: e d 

b 

boy 0.248732 0.543010 

girl 1.786030 -0.582415 





5.4.2 transform() 国 数 的 转换 操作 


数据 聚合 会 将 一 个 函数 应 用 到 每 个 分 组 内 ,最终 每 个 组 会 得 到 一 个 标量 值 ,但 是 
transform() 会 将 一 个 函数 应 用 到 每 个 分 组 内 ,返回 的 结果 和 原来 数据 的 长 度 相同 ,而 
不 是 每 个 组 仅 有 一 个 结果 。 如 果 函 数 作用 于 每 个 组 ,计算 得 到 的 是 一 个 标量 值 , 则 会 
被 广播 出 去 ,同一 个 组 的 成 员 得 到 相同 的 值 。Code 5-37 展示 了 transform() 函 数 的 


mean 操作 和 普通 mean 操作 的 不 同 ,transform() 得 到 的 结果 中 





属于 同 组 的 元 素 会 有 
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相同 的 值 ,结果 对 象 的 index 与 原来 的 DataFrame 对 象 相同 。transform() 同 样 可 以 
接收 一 个 函数 ,返回 与 组 的 大 小 相同 的 结果 或 者 一 个 标量 值 (可 以 广播 给 每 个 成 员 )， 
如 Code 5-37、Code 5-38 所 示 。 


Code 5-37 


transform ) 函 数 的 mean 操作 示例 





In [1]: 
Out [1]: 


In [2]: 
Out [2]: 


In [1]: 


in. [2]: 


Out [2]: 


df. groupby( 'b'). transform( 'mean') 


c 


one 1.335391 
two 0.070428 
three 0.070428 
four 1.335391 


five 0.070428 


d 
0.543010 
— 0.582415 
— 0.582415 
0.543010 
— 0.582415 


df. groupby( 'b'). nean() 


c 
b 
boy 1.335391 
girl 0.070428 


0.543010 


— 0.582415 


Code 5-38 transform O 函数 的 自 定 义 函 数 操作 示例 


def demean(x): 


return x- x.mean() 


df. groupby( 'b'). transform(demean) 


c 


one — 0.124366 
two 0.403075 
three 0.691477 
four 0.124366 
five — 1.094553 


d 
= 0.597933 
0.314194 
0.495375 
0.597933 
— 0. 809568 





5.4.3 [EHI apply OF 9:80— Rn de (E 


aggregate O fll transform() 可 以 通过 某 些 约束 的 自 定义 函数 对 groupBy 对 象 进 
行 自 定义 操作 ,但 是 有 些 操作 可 能 不 符合 这 两 类 函数 的 约束 , 此 时 需要 apply O 函数 
来 完成 。apply() 函 数 会 将 数据 对 象 分 成 多 个 组 .然后 对 每 个 组 调用 传人 的 函数 ,最 
后 将 其 组 合 到 一 起 ,如 Code 5-39 所 示 。 
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Code 5-39  groupBy 对 象 的 applyO 〇 函数 操作 示例 





In [1]: def get top n(grouped df,n=1,column = 'c'): 
return grouped df.sort index(by = column)[ -n:] 
In [2]: df.groupby('b').apply(get top n) 
Out [2]: a b c d 
b 
boy four a boy 1.459757 1.140943 
girl three c girl 0.761906 一 0.087040 
In [3]: df.groupby('b').apply(get top n,n-2,column = 'd') 
Out [3]: a b c d 
b 
boy one a boy 1.211025  — 0.054924 
four a boy 1.459757 1.140943 
girl two b girl 0.473504 -0.268221 
three c girl 0.761906  - 0.087040 
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在 数据 分 析 中 包括 四 大 经 典 算法 一 一 关系 模式 ,分 类 、 聚 类 、 回 归 , 本 章 对 涉及 的 
相关 算法 进行 理论 上 的 阐述 


6.1 分 类 分 析 


分 类 是 找 出 数据 库 中 一 组 数据 对 象 的 共同 特点 并 按照 分 类 模式 将 它们 划分 为 不 
同 的 类 ,其 目的 是 通过 分 类 模型 将 数据 库 中 的 数据 项 映射 到 某 个 给 定 的 类 别 。 在 现 
实生 活 中 人 们 会 遇 到 很 多 分 类 问题 ,例如 经 典 的 手写 数字 识别 问题 等 。 

分 类 学 习 是 一 类 监督 学 习 的 问题 ,训练 数据 会 包含 其 分 类 结果 ,根据 分 类 结果 可 
以 分 为 以 下 几 类 。 

。 二 分 类 问题 : 是 与 非 的 判断 ,分 类 结果 为 两 类 ,从 中 选择 一 个 作为 预测 结果 。 

。 多 分 类 问题 : 分 类 结果 为 多 个 类 别 , 从 中 选择 一 个 作为 预测 结果 。 

。 多 标签 分 类 问题 : 不 同 于 前 两 类 ,多 标签 分 类 问题 中 一 个 样本 的 预测 结果 可 

能 是 多 个 , 也 可 能 有 多 个 标签 。 多 标签 分 类 问题 很 常见 ,比如 一 部 电影 可 以 
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同时 被 定 为 动作 片 和 犯罪 片 ,一 则 新 闻 可 以 同时 属于 政治 和 法 律 等 。 

分 类 问题 作为 一 个 经 典 的 问题 ,有 很 多 经 典 模型 产生 并 被 广泛 应 用 ,就 模型 本 质 
所 能 解决 问题 的 角度 来 说 ,可 以 分 为 线性 分 类 模型 和 非 线性 分 类 模型 。 

在 线性 分 类 模型 中 ,假设 特征 与 分 类 结果 存在 线性 关系 ,通常 将 样本 特征 进行 线 
性 组 合 ,表示 形式 如 下 : 

jz) = wai + war + + wira +b 
表示 成 向 量 形式 如 下 : 
fG) =w. rb 
Hep w= Gui sw erm ,twa) ,线性 模型 的 算法 则 为 对 w 和 2” 的 学 习 , 典 型 的 算法 包括 
逻辑 回归 (Logistic Regression) 、 线 性 判别 分 析 (Linear Discriminant Analysis) 。 

当 所 给 的 样本 是 线性 不 可 分 时 需要 非 线性 分 类 模型 , 非 线性 分 类 模型 中 的 经 典 
算法 包括 K 近邻 (K-Nearest Neighbor. KNN)、 支 持 向 量 机 (Support Vector 
Machine) ,决策 树 (Decision Tree) 和 朴素 贝 叶 斯 (Naive Bayes)。 下 面 对 每 种 算法 的 
思想 做 一 个 简要 介绍 ,给 读者 一 个 直观 感受 ,尽量 不 涉及 公式 的 讲解 。 如 果 读 者 需要 
详细 的 推导 过 程 ,可 以 看 一 些 详细 、 算 法 推导 极 少 的 书籍 ,推荐 看 周志 华 的 (机 器 学 
习 》 和 李 航 的 (统计 学 习 方法 》, 这 两 本 书籍 都 是 十 分 经 典 的 书籍 。 


6.1.1 逻辑 回归 


特征 和 最 终 分 类 结果 之 间 表示 为 线性 关系 ,但 是 得 到 的 f 是 映射 到 整个 实数 域 
中 的 。 分 类 问题 ,例如 二 分 类 问题 需要 将 f 映射 到 {0,1) 空 间 , 因 此 仍 需 要 一 个 函数 
gO 完成 实数 域 到 {0,1} 空 间 的 映射 。 在 逻辑 回归 中 g() 为 LogisticO) 函 数 , 当 gO>0 
时 ,zx 的 预测 结果 为 正 , 否 则 为 负 。 

逻辑 回归 的 优点 是 直接 对 分 类 概率 (可 能 性 ) 进 行 建 模 , 无 须 事先 假设 数据 分 布 ， 
是 一 个 判别 模型 ,并且 g() 相 当 于 对 z 为 正 样本 的 概率 预测 ,对 于 一 些 任 务 可 以 得 到 
更 多 的 信息 。Logistic() 函 数 本 身 也 有 很 好 的 性 质 ,是 任意 阶 可 导 凸 函数 ,许多 数学 
方面 的 优化 算法 可 以 使 用 。 


6.1.2 线性 判别 分 析 


线性 判别 分 析 的 思想 是 针对 训练 集 , 将 其 投影 到 一 条 直线 上 ,使 得 同类 样本 点 尽 
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量 接近 ,异类 样本 点 尽量 远离 。 即 同类 样本 计算 得 到 的 了 尽量 比较 相似 , 协 方差 较 
小 ,异类 样本 的 中 心间 的 距离 尽 可 能 大 ,同时 考虑 两 者 可 以 得 到 线性 判别 分 析 的 目标 
函数 。 


6.1.3 支持 向 量 机 


支持 向 量 机 的 想法 的 来 源 是 基于 训练 集 在 样本 空间 中 找到 一 个 超 平面 可 以 将 不 
同类 别 的 样本 分 开 , 并 且 使 得 所 有 的 点 尽 可 能 远离 超 平面 ,但 实际 上 离 超 平面 很 远 的 
点 都 已 经 被 分 类 正确 ,用 户 所 关心 的 是 离 超 平面 较 近 的 点 ,这 是 容易 被 误 分 类 的 点 ， 
如 何 使 离 得 较 近 的 点 尽 可 能 远离 超 平面 ,如 何 找到 一 个 最 优 的 超 平面 以 及 最 优 超 平 
面 如 何 定义 是 支持 向 量 机 需要 解决 的 问题 。 用 户 所 需要 寻找 的 超 平面 应 该 对 样本 局 
部 扰动 的 “容忍 性 ”最 好 , 即 结果 对 于 未 知 样本 的 预测 更 加 准确 。 

可 以 定义 超 平面 的 方程 如 下 : 

w*rdtb-O0 
Hr wo D EO f B D 6] ib b 为 位 移 项 。 定 义 函 数 间隔 ^09 y Go * Ho) ,其 中 > 是 
样本 的 分 类 标签 (在 支持 向 量 机 中 使 用 1 和 一 1) 表 示 ,y 与 (zw "zx 十 0) 同 号 代表 分 类 
正确 ,但 是 函数 间隔 不 能 正常 反映 点 到 超 平面 的 距离 , 当 w 和 2 成 比例 增加 时 函数 间 
隔 也 成 倍增 长 ,所 以 加 入 对 于 法 向 量 w 的 约束 ,这 样 可 以 得 到 几何 间隔 y — 
ylw. xd-b) 


lw I| 2 
支持 向 量 机 中 寻找 最 优 超 平面 的 思想 是 离 超 平面 最 近 的 点 与 超 平面 之 间 的 距离 
尽量 大 。 如 图 6-1 所 示 ,如 果 所 有 样本 不 仅 可 以 被 超 平面 分 开 , 还 和 超 平面 保持 一 定 
的 函数 距离 (图 6-1 中 的 函数 距离 为 1) ,这样 的 超 平面 为 支持 向 量 机 中 的 最 优 超 平 
面 ,和 超 平 面 保持 一 定 函 数 距离 的 样本 定义 为 支持 向 量 。 
SVM 模型 目的 是 让 所 有 点 到 超 平面 的 距离 大 于 一 定 的 值 , 即 所 有 点 要 在 各 自 类 
别 的 支持 向 量 的 两 边 ,数学 表达 如 下 : 


y yGo* r5) 


s. t y? we 3? +5) = Y 60 Z Y G — 1,2,.,n) 
lwl: 


max 
经 过 一 系列 推导 ,SVM 的 优化 目标 等 价 于 : 
mu ec, s. t y? (we x? +b) È 1G — 1,2,.…,n) 
lwl: 


通过 拉 格 朗 日 乘 子 法 ,可 以 将 上 述 优化 目标 转化 为 无 约束 的 优化 函数 : 
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Marg in = 24h 'w 





图 6-1 支持 向 量 机 基本 思想 


Dinha = i lwli-SleUy?Ge-a9-pD—1] 满足 a 之 0 
i=} 


上 述 内 容 介绍 了 线性 可 分 SVM 的 学 习 方 法 ( 即 保证 存在 这 样 一 个 超 平面 使 得 样 
本 数据 可 以 被 分 开 ) ,但 是 对 于 非 线 性 数据 集 , 这 样 的 数据 集中 可 能 存在 一 些 异 常 点 
导致 不 能 线性 可 分 ,此 时 可 以 利用 线性 SVM 的 软 间 隔 最 大 化 思想 解决 ,具体 方法 请 
读者 自行 查阅 。 


6.1.4 决策 树 


使 用 决策 树 能 够 完成 对 样本 的 分 类 ,可 以 看 成 对 于 “当前 样本 是 否 属于 正 类 ”这 
一 问题 的 决策 过 程 ,模仿 人 类 做 决策 时 的 处 理 机 制 ,基于 树 的 结果 进行 决策 。 例 如 在 
进行 信用 卡 申请 时 估计 一 个 人 是 否 可 以 通过 信用 卡 申 请 (分 类 结果 为 是 与 否 ) 可 能 需 
要 其 多 方面 特征 ,例如 年 龄 ,是否 有 固定 工作 ,历史 信用 评价 (好 ,一 般 或 差 ) 等 。 人 们 
在 做 类 似 的 决策 时 会 进行 一 系列 子 问题 的 判断 ,例如 是 否 有 固定 工作 ,年 龄 属于 青 
年 ,中 年 还 是 老年 ,以 及 历史 信用 评价 的 好 与 差 等 。 在 决策 树 过 程 中 则 会 根据 子 问题 
的 搭建 构造 中 间 结 点 , 叶 结 点 为 总 问题 的 分 类 结果 , 即 是 否 通过 信用 卡 申 请 。 

如 图 6-2 中 的 决策 树 所 示 , 先 看 "年龄", 如 果 年 龄 为 中 年 ,看 “是 否 有 房产 ”, 如 果 
没有 房产 再 判断 “是 否 有 固定 工作 ”, 如 果 没 有 固定 工作 , 则 得 到 最 终 决 策 ,通过 信用 
卡 申请 。 
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图 6-2 信用 卡 申请 的 决策 树 


以 上 为 决策 树 的 基本 决策 过 程 ,决策 过 程 的 每 个 判定 问题 都 是 对 属性 的 测试 , 例 
如 年 龄 .历史 信用 评价 等 ,每 个 判定 结果 都 是 导出 最 终结 论 或 者 进入 下 一 个 判定 问 
题 ,考虑 范围 在 上 次 判定 结果 的 限定 范围 之 内 。 

一 般 一 棵 决策 树 包 含 一 个 根 结 点 ,若干 个 中 间 结 点 和 若干 个 叶 结 点 , 叶 结 点 对 应 
总 问题 的 决策 结果 , 根 结 点 和 中 间 结 点 对 应 中 间 的 属性 判定 问题 ,每 经 过 一 次 划分 得 
到 符合 该 结果 的 一 个 样本 子 集 , 从 而 完成 对 样本 集 的 划分 过 程 。 

决策 树 的 生成 过 程 是 一 个 递归 过 程 , 在 决策 树 的 构造 过 程 中 , 若 当前 结 点 所 包含 
样本 全 部 属于 同一 类 , 则 这 个 结 点 可 以 作为 叶 结 点 ,递归 返回 ; 若 当前 结 点 所 包含 样 
本 在 所 有 属性 上 取 值 相同 ,只 能 将 其 类 型 设 为 集合 中 含 样本 数 最 多 的 类 别 , 同 时 也 实 
现 了 模糊 分 类 的 效果 。 

决策 树 学 习 主 要 是 为 了 生成 一 棵 泛 化 能 力 强 的 决策 树 , 同 一 个 问题 和 样本 可 能 
产生 不 同 的 决策 树 ,如 何 评价 决策 树 的 好 坏 以 及 如 何 选择 划分 的 属性 是 决策 树 学 习 
需要 考虑 的 ,目标 是 每 一 次 划分 使 分 支 结 点 纯度 尽量 高 , 即 样本 尽 可 能 属于 同一 个 类 
别 。 度 量 纯 度 的 指标 有 信息 炉 、 增 益 率 及 基尼 指数 等 。 


6.1.5 天 近邻 


K 近邻 算法 的 工作 机 制 是 给 定 测试 集合 ,基于 某 种 距离 度量 计算 训练 集中 与 其 
最 接近 的 个 训练 样本 ,基于 这 上 个 样本 的 信息 对 测试 样本 的 类 别 进行 预测 。K 近 
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邻 算 法 需要 考虑 的 首先 是 & 值 的 确定 ,距离 计算 公式 的 确定 ,以 及 & 个 样本 对 于 测试 
样本 的 分 类 的 影响 的 确定 。 
前 两 者 的 确定 需要 根据 实际 情况 考虑 ,对 于 分 类 影响 的 确定 ,最 基本 的 思想 是 采 
用 & 个 样本 中 样本 最 多 的 类 别 作为 测试 样本 的 类 别 ,或 者 根据 距离 加 入 权重 的 考虑 。 
K 近邻 算法 与 前 面 提 到 的 算法 都 不 太 相同 , 它 似 乎 无 须 训练 ,训练 时 间 开 销 为 
0, 这 一 类 算法 被 称 为 “懒惰 学 习 ”, 而 样本 需要 在 训练 阶段 进行 处 理 的 算法 被 称 为 “ 急 
切 学 习 ”。 


6.1.6 朴素 贝 叶 斯 


朴素 贝 叶 斯 是 一 个 简单 但 十 分 实用 的 分 类 模型 。 朴 素 贝 叶 斯 的 基础 理论 是 贝 叶 
斯 理论 , 贝 叶 斯 理论 公式 如 下 : 


Plx | y)P(y) 
P(x) 


其 中 ,z 代表 n 维特 征 向 量 ,y 为 所 属 类 别 , 目 标 是 寻 出 所 有 类 别 中 P(y|x) 最 大 的 。 
朴素 贝 叶 斯 模型 则 是 建立 在 条 件 独 立 假 设 的 基础 上 , 即 各 个 维度 上 的 特征 是 相 
互 独立 的 ,所 以 Ply) =P l3) PG» Pla, ly) o 


P(y | x) = 


6.2 关联 分 析 


6.2.1 基本 概念 


关联 规则 是 描述 数据 库 中 数据 项 之 间 所 存在 关系 的 规则 ,也 就 是 根据 一 个 事务 
中 某 些 项 的 出 现 可 导出 另 一 些 项 在 同一 事务 中 也 出 现 , 即 隐藏 在 数据 间 的 关联 或 相 
互 关 系 。 关 联 规则 的 学 习 属于 无 监督 学 习 过 程 , 在 实际 生活 中 的 应 用 很 多 ,例如 分 析 
顾客 超市 购物 记录 可 以 发 现 很 多 隐 含 的 关联 规则 ,如 经 典 的 啤酒 尿布 问题 。 


1. 关联 规则 定义 


首先 给 出 一 个 项 的 集合 一 一 1 二 (DD en LU) EEUU JE ID X —Y 的 蕴含 
式 ,X.Y 属于 1, 且 六 与 Y 的 交集 为 空 。 
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2. 指标 定义 


在 关联 规则 挖掘 中 有 4 个 重要 的 指标 。 

D WA E (confidence) 

定义 : 设 W 中 支持 物品 集 A 的 事务 有 c% 的 事务 同时 也 支持 物品 集 B,c% 称 为 
关联 规则 A 一 B 的 置信 和 度 , 即 条 件 概 率 P(Y|X)。 

实例 说 明 : 以 啤酒 尿布 问题 为 例 ,如 果 一 个 顾客 购买 啤酒 ,那么 他 也 购买 尿布 的 
可 能 性 有 多 大 呢 ? 在 该 例 中 , 若 购买 啤酒 的 顾客 中 有 50%% 的 人 购买 了 尿布 ,那么 置信 
度 是 50% 。 

2) 支持 度 (support) 

定义 : 设 W 中 有 s% 的 事务 同时 支持 物品 集 A 和 B,s% 称 为 关联 规则 AB 的 
支持 度 。 支 持 度 描述 了 A 和 B 这 两 个 物品 集 的 并 集 C 在 所 有 事务 中 出 现 的 概率 有 
多 大 , 即 P(XNY)。 

实例 说 明 : 某 天 共有 100 个 顾客 到 商场 购买 物品 ,其 中 有 15 个 顾客 同时 购买 了 
啤酒 和 尿布 ,那么 上 述 关联 规则 的 支持 度 就 是 1525. 

3) 期 望 置信 度 (expected confidence) 

定义 : 设 W 中 有 e% 的 事务 支持 物品 集 B,e% 称 为 关联 规则 A 一 B R39] 8 "EGG 
度 , 即 P(B)。 期 望 园 信和 度 描述 了 单纯 的 物品 集 B 在 所 有 事务 中 出 现 的 概率 有 
多 大 。 

实例 说 明 : 如 果 某 天 共有 100 个 顾客 到 商场 购买 物品 ,其 中 有 25 个 顾客 购买 了 
尿布 , 则 上 述 关联 规则 的 期 望 置 信和 度 就 是 25%。 

4) 提升 度 (lift) 

定义 : 提升 度 是 置信 度 与 期 望 置信 度 的 比值 ,反映 了 ”物品 集 A 的 出 现 ” 对 物品 
集 B 的 出 现 概率 发 生 了 多 大 的 变化 。 

实例 说 明 : 在 上 述 实 例 中 置信 度 为 50% ,期 望 置信 和 度 为 25%, 则 上 述 关联 规则 的 
提升 度 一 50%%/25%% 一 2。 


3. 关联 规则 挖掘 定义 


给 定 一 个 交易 数据 集 工 , 找 出 其 中 所 有 支持 度 supportZ min, support, t fii E 
confidenceZ*min confidence 的 关联 规则 。 
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有 一 个 简单 而 粗鲁 的 方法 可 以 找 出 所 需要 的 规则 , 那 就 是 穷 举 项 集 的 所 有 组 合 ， 
并 测试 每 个 组 合 是 否 满足 条 件 , 一 个 元 素 个 数 为 n 的 项 集 的 组 合 个 数 为 2 一 1( 除 去 
空 集 ) ,所 需要 的 时 间 复 杂 度 明显 为 0(2"), 对 于 普通 的 超市 ,其 商品 的 项 集 数 也 在 
1 万 以 上 ,用 指数 时 间 复 杂 度 的 算法 不 能 在 可 接受 的 时 间 内 解决 问题 ,而 怎样 快速 挖 
出 满足 条 件 的 关联 规则 是 关联 挖掘 需要 解决 的 主要 问题 。 

仔细 想 一 下 ,可 以 发 现 对 于 { 啤 酒 一 尿布 } 和 { 尿 布 一 啤酒 } 这 两 个 规则 的 支持 度 
实际 上 只 需要 计算 {尿布 ,啤酒 } 的 支持 度 , 即 它们 交集 的 支持 度 ,于 是 把 关联 规则 挖 
掘 分 两 步 进行 。 

(1) 生成 频繁 项 集 : 这 一 阶段 找 出 所 有 满足 最 小 支持 度 的 项 集 , 找 出 的 这 些 项 集 
称 为 频繁 项 集 。 

(2) 生成 规则 : 在 上 一 步 产生 的 频繁 项 集 的 基础 上 生成 满足 最 小 置信 和 度 的 规则 ， 
产生 的 规则 称 为 强 规则 。 


6.2.2 典型 算法 


对 于 挖掘 数据 集合 中 的 频繁 项 集 ,经 典 算法 包括 Apriori 算法 和 FP-Tree 算法 ， 
但 是 这 两 类 算法 都 假设 数据 集合 是 无 序 的 ,对 于 序列 数据 中 频繁 序列 的 挖掘 则 有 
PrefixSpan 算法 。 项 集 数据 和 序列 数据 的 区 别 如 图 6-3 所 示 ,左边 的 数据 集 就 是 项 集 
数据 ,每 个 项 集 数据 由 若干 项 组 成 ,这 些 项 没有 时 间 上 的 先后 关系 ; 右边 的 序列 数据 
则 不 一 样 , 它 是 由 若干 数据 项 集 组 成 的 序列 。 比 如 第 1 个 序列 二 a(abc)(ac)d(Ccf) 二 ， 
它 由 avabc、ac、d、cf 共 5 个 项 集 数 据 组 成 ,并 且 这 些 项 有 时 间 上 的 先后 关系 。 对 于 超 
过 一 个 项 的 项 集 要 加 上 括号 ,以 便 和 其 他 的 项 集 分 开 。 同 时 ,由 于 项 集 内 部 是 不 区 分 
先后 顺序 的 ,为 了 方便 进行 数据 处 理 , 一 般 将 序列 数据 中 所 有 的 项 集 按 字母 顺序 

















排序 。 
bi 序列 数据 
TID itemsets SID sequences 
10 a b, d 10 | «a(abc)(ac)d( cf > 
20 a,c, d 20 <(ad)c(bc)(ae)> 
30 a de 30 | « ef (ab) df )cb> 
40 b.e.f 40 <eg( af )cbc> 




















图 6-3 项 集 数 据 和 序列 数据 
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1. Apriori 算法 


Apriori 算法 用 于 找 出 数据 值 中 频繁 出 现 的 数据 集合 ,为 了 减少 频繁 项 集 的 生成 
时 间 ,应 该 尽早 消除 完全 不 可 能 是 频繁 项 集 的 集合 ,Apriori 的 基本 思想 基于 下 面 两 
条 定律 。 

Apriori 定律 1: 如 果 一 个 集合 是 频繁 项 集 , 则 它 的 所 有 子 集 都 是 频繁 项 集 。 

举例 : 假设 集合 {A,B} 是 频繁 项 集 , 即 A 和 B 同时 出 现在 一 条 记录 中 的 次 数 大 
于 等 于 最 小 支持 度 min_support, 则 它 的 子 集 {A} 和 {B} 出 现 的 次 数 必定 大 于 等 于 min 
_support, 即 它 的 子 集 都 是 频繁 项 集 。 

Apriori 定律 2: 如 果 一 个 集合 不 是 频繁 项 集 , 则 它 的 所 有 超 集 都 不 是 频繁 项 集 。 

举例 : 假设 集合 {A}) 不 是 频繁 项 集 , 即 A 出 现 的 次 数 小 于 min_support, 则 它 的 任 
何 超 集 ( 如 {A,B)) 出 现 的 次 数 必定 小 于 min_support, 因 此 其 超 集 必定 也 不 是 频繁 
项 集 。 

利用 这 两 条 定律 , 抛 掉 了 很 多 候选 项 集 , A priori 算法 采用 迭代 的 方法 , 先 搜索 出 
1 项 集 ( 长 度 为 1 的 项 集 ) 及 对 应 的 支持 度 ,对 于 support 低 于 min. support 的 项 进行 
剪 枝 , 对 于 剪 枝 后 的 1 项 集 进行 排列 组 合 得 到 候选 2 项 集 , 青 次 扫描 数据 库 得 到 每 个 
候选 2 项 集 的 support, 对 于 support 低 于 min. support 的 项 进行 前 枝 ,得 到 频繁 2 项 
集 ,以 此 类 推进 行 达 代 , 直 到 没有 频繁 项 集 为 止 。 其 算法 流程 如 下 。 

输入 : 数据 集合 D, AFE RIE a。 

输出 : 最 大 的 频繁 项 集 。 

CD. 扫描 整个 数据 集 ,得 到 所 有 出 现 过 的 数据 ,作为 候选 频繁 1 项 集 。k 二 1, 频 繁 
0 项 集 为 空 集 。 

(2) 挖掘 频繁 4 项 集 。 

O 扫描 数据 计算 候选 频繁 & 项 集 的 支持 度 。 

© 去 除 候选 频繁 & 项 集中 支持 度 低 于 阔 值 的 数据 集 , 得 到 频繁 上 项 集 。 如 果 得 
到 的 频繁 上 项 集 为 空 , 则 直接 返回 频繁 & 一 1 项 集 的 集合 作为 算法 结果 ,算法 结束 ; 如 
果 得 到 的 频繁 & 项 集 只 有 一 项 , 则 直接 返回 频繁 项 集 的 集合 作为 算法 结果 ,算法 
结束 。 


© 基于 频繁 项 集 ,生成 候选 频繁 & 十 1 项 集 。 
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(3) 4 & 一 A 十 1, 转 和 人 步骤 (2) 。 
从 算法 的 步骤 可 以 看 出 ,Apriori 算法 每 轮 迭 代 都 要 扫描 数据 集 , 因 此 在 数据 集 
很 大 ,数据 种 类 很 多 的 时 候 算法 效率 很 低 。 


2. FP-Tree 算法 


FP-Tree 算法 同样 用 于 挖掘 频繁 项 集 , 其 中 引入 3 个 部 分 来 存储 临时 数据 结构 ， 
首先 是 项 头 表 ,记录 所 有 频繁 1 项 集 (support 大 于 min. support 的 1 项 集 ) 出 现 的 次 
数 , 并 按照 次 数 进行 降序 排列 ,如 图 6-4 所 示 ; 其 次 是 FP 树 , 将 原始 数据 映射 到 内 存 
中 ,以 树 的 形式 存储 ; 最 后 是 结 点 链表 ,所 有 项 头 表 里 的 1 项 频繁 集 都 是 一 个 结 点 链 
表 的 头 , 它 依次 指向 FP 树 中 该 1 项 频繁 集 出 现 的 位 置 ,将 FP 树 中 所 有 出 现 的 相同 
项 的 结 点 串联 起 来 。 


原始 数据 
TID[ Tems 
{A,B} 
{B,C,D} 
{A,C,D,E} 
(A.D.E) 
{A,B,C} 
{A,B,C,D} 
{B,C} 
{A,B,C} 
{A,B,D} 
{B.C.E} 
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图 6-4 FP-Tree 算 法 的 临时 数据 结构 


FP-Tree 算法 首先 需要 建立 降序 排列 的 项 头 表 ,并 根据 项 头 表 中 结 点 的 排列 顺 
序 对 原始 数据 集中 每 条 数据 的 结 点 进行 排序 ,同时 去 除非 频繁 项 得 到 排序 后 的 数据 
集 , 具 体 过 程 如 图 6-5 所 示 。 

在 建立 项 头 表 并 得 到 经 过 排序 的 数据 集 后 建立 FP 树 ,FP 树 的 每 个 结 点 由 项 和 
次 数 两 部 分 组 成 。 逐 条 扫描 数据 集 . 将 其 插入 FP 树 , 插 入 规则 为 每 条 数据 中 排名 靠 
后 的 作为 前 一 个 结 点 的 子 结 点 ;如果 有 公用 的 祖先 , 则 对 应 的 公用 祖先 结 点 的 计数 加 
1。 插 入 后 ,如 果 有 新 结 点 出 现 , 则 项 头 表 对 应 的 结 点 会 通过 结 点 连 表 链接 上 新 结 点 ， 


数据 
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排序 后 的 数据 集 


ACEBF 
ACG 

E 
ACEGD 
ACEG 
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ACE BF 
ACD 
ACEG 
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图 6-5 项 头 表 及 排序 后 的 数据 集 


直到 所 有 的 数据 都 插入 到 FP 树 中 ,FP 树 建立 完成 。 图 6-6 是 插入 第 2 条 数据 的 过 


程 ,图 6-7 为 构建 好 的 FP 树 。 
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B:2 G:4 
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F:2 
67 FP 树 


E:2 


D:1 


在 得 到 FP 树 后 ,可 以 挖掘 所 有 的 频繁 项 集 ,从 项 头 表 底 部 开始 ,找到 以 该 结 点 为 
子 结 点 的 子 树 , 则 可 以 得 到 其 条 件 模式 基 ,基于 条 件 模式 基 可 以 递归 发 现 所 有 包含 该 
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结 点 的 频繁 项 集 。 以 DD 结 点 为 例 ,挖掘 过 程 如 图 6-8 Bros «D 结 点 有 两 个 叶 结 点 , 因 
此 首先 得 到 的 FP 子 树 如 图 左 。 接 着 将 所 有 的 祖先 结 点 的 计数 设置 为 叶 结 点 的 计数 ， 
即 变 成 {A:2,C:2,E:1 G:1,D:1,D:1) ,此 时 EE 结 点 和 G 结 点 由 于 在 条 件 模 式 基 里 面 
的 支持 度 低 于 阅 值 ,被 删除 ,最 终 在 去 除 低 支持 度 结 点 并 不 包括 叶 结 点 后 D 的 条 件 模 
式 基 为 {A:2, C:2)}。 通 过 它 很 容易 得 到 D 的 频繁 2 项 集 为 {A:2,D:2}),{C:2,D:2}。 
递归 合并 2 项 集 ,得 到 频繁 3 项 集 为 {A:2,C:2,D:2}。D 对 应 的 最 大 频繁 项 集 为 频 
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图 6-8 ”频繁 项 集 的 挖掘 过 程 
算法 的 具体 流程 如 下 : 


(1) 扫描 数据 ,得 到 所 有 频繁 1 项 集 的 计数 ,然后 删除 支持 度 低 于 阔 值 的 项 ,将 频 
3 1 项 集 放 入 项 头 表 ,并 按照 支持 度 降序 排列 。 

(2) 扫描 数据 ,将 读 到 的 原始 数据 去 除非 频繁 1 项 集 ,并 按照 支持 度 降 序 排列 。 

(3) 读 入 排序 后 的 数据 集 ,插入 FP 树 ,在 插入 时 按照 排序 后 的 顺序 插入 ,排序 靠 
前 的 结 点 是 祖先 结 点 , 靠 后 的 是 子孙 结 点 。 如 果 有 共用 的 祖先 , 则 对 应 的 公用 祖先 结 
点 的 计数 加 1。 插 和 后, 如果 有 新 结 点 出 现 , 则 项 头 表 对 应 的 结 点 会 通过 结 点 链表 连 
接 上 新 结 点 ,直到 所 有 的 数据 都 插入 到 FP H, FP 树 的 建立 完成 。 

(4) 从 项 头 表 的 底部 项 依次 向 上 找到 项 头 表 项 对 应 的 条 件 模 式 基 ,从 条 件 模式 
基 递 归 挖掘 得 到 项 头 表 项 的 频繁 项 集 。 

(5) 如 果 不 限 制 频繁 项 集 的 项 数 , 则 返回 步骤 (4) 所 有 的 频繁 项 集 ,否则 只 返回 
满足 项 数 要 求 的 频繁 项 集 。 


3. PrefixSpan 算法 


PrefixSpan 算法 是 挖掘 频繁 序列 的 经 典 算法 , 子 序列 是 指 如 果 某 序列 A 的 所 有 
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项 集 都 能 在 序列 B 的 项 集中 找到 , 则 A 是 B 的 子 序 列 。PrefixSpan 算法 的 全 称 是 
Prefix-Projected Pattern Growth,; 即 前 级 投影 的 模式 挖掘 。 这 里 的 前 级 投影 指 的 是 
前 缀 对 应 于 某 序列 的 后 级 。 前 级 和 后 级 的 示例 如 图 6-9 所 示 。 


序列 <a(abcXac)d( cf > 的 前 组 和 后 缀 例子 














前 组 Jii CH EE) 
<a> <(abc)(ac)d( cf > 
<aa> <(_bc)(ac)d( cf > 
<ab> *( cac)d( cf )> 











6-9 ”前 级 和 后 组 示例 


PrefixSpan 算法 的 思想 是 从 长 度 为 1 的 前 缀 开始 挖掘 序列 模式 ,搜索 对 应 的 投 
影 数据 库 得 到 长 度 为 1 的 前 级 对 应 的 频繁 序列 ,然后 递归 挖掘 长 度 为 2 的 前 缀 对 应 
的 频繁 序列 ,以 此 类 推 , 一 直 递 归 到 不 能 挖掘 到 更 长 的 前 组 挖掘 为 止 。 其 算法 流程 
如 下 。 

输入 : 序列 数据 集 S 和 支持 度 阔 值 a。 

输出 : 所 有 满足 支持 度 要 求 的 频繁 序列 集 。 

(1) 找 出 所 有 长 度 为 1 的 前 级 和 对 应 的 投影 数据 库 。 

(2) 对 长 度 为 1 的 前 组 进行 计数 ,将 支持 度 低 于 阔 值 a 的 前 缀 对 应 的 项 从 数据 集 
S 删除 ,同时 得 到 所 有 的 频繁 1 项 序列 ,i 二 1。 

(3) 对 于 每 个 长 度 为 i 满足 支持 度 要 求 的 前 缀 进行 递归 挖掘。 

CD 找 出 前 级 对 应 的 投影 数据 库 , 如 果 投 影 数据 库 为 空 , 则 递归 返回 。 

@ 统计 对 应 投影 数据 库 中 各 项 的 支持 度 计数 ,如 果 所 有 项 的 支持 度 计数 都 低 于 
[I (ÉL a, 则 递归 返回 。 

© 将 满足 支持 度 计数 的 各 个 单项 和 当前 的 前 缀 进行 合并 ,得 到 若干 新 的 前 级。 

图 令 ==i 十 1, 前 级 为 合并 单项 后 的 各 个 前 缀 ,分别 递归 执行 第 (3) 步 。 

PrefixSpan 算法 由 于 不 用 产生 候选 序列 , 且 投影 数据 库 缩小 很 快 ,内 存 消耗 比较 
稳定 ,在 做 频繁 序列 模式 挖掘 的 时 候 效 果 很 高 ,与 其 他 序列 挖掘 算法 (比如 GSP, 
FreeSpan) 相 比 有 较 大 的 优势 ,因此 是 生产 环境 中 常用 的 算法 。 

PrefixSpan 算法 运行 时 最 大 的 消耗 在 于 递归 地 构造 投影 数据 库 。 如 果 序 列 数据 
集 较 大 ,项 数 种 类 较 多 ,算法 的 运行 速度 会 有 明显 下 降 , 用 户 可 以 使 用 伪 投 影 计 数 等 
方法 对 其 进行 改进 。 
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6.3 聚 类 分 析 


聚 类 分 析 是 典型 的 无 监督 学 习 任 务 ,训练 样本 的 标签 信息 未 知 ,通过 对 无 标签 样 
本 的 学 习 揭示 数据 的 内 在 性 质 及 规律 ,这 个 规律 通常 是 样本 间 相 似 性 的 规律 。 聚 类 
分 析 是 把 一 组 数据 按照 相似 性 和 差异 性 分 为 几 个 类 别 , 其 目的 是 使 属于 同一 类 别 的 
数据 间 的 相似 性 尽 可 能 大 ,使 不 同类 别 中 的 数据 间 的 相似 性 尽 可 能 小 。 聚 类 试图 将 
数据 集 样本 划分 为 若干 个 不 相交 的 子 集 ,这 样 划 分 出 的 子 集 可 能 有 一 些 潜在 规律 和 
语义 信息 ,但 其 规律 是 事先 未 知 的 ,概念 语义 和 潜在 规律 是 在 得 到 类 别 后 分 析 得 
到 的 。 

聚 类 既 能 作为 一 个 单独 过 程 寻找 内 部 结构 ,分析 者 来 分 析 其 概念 语义 ,也 可 作为 
其 他 学 习 任务 的 前 驱 过 程 , 为 其 他 学 习 任务 将 相似 的 数据 聚 到 一 起 。 


6.3.1 均值 算法 


K 均值 算法 是 最 经 典 的 聚 类 算法 之 一 ,基本 思想 是 给 定 样本 集 DS Gana 
癌 儿 将 样本 划分 得 到 有 个 复 C= (C, C, ,… CL) ,使 得 所 有 样本 到 其 聚 类 中 心 j 的 距 
离 和 已 最 小 ,形式 化 表示 如 下 : 


E=), > lz- l 


i=l z€C, 


Hop us E C, 的 均值 向 量 , 即 y = en 


EC, 


K 均值 算法 的 实现 过 程 如 下 : 

(1) 随机 选取 个 聚 类 中 心 。 

(2) 重复 以 下 过 程 直至 收敛 。 

CD 对 于 每 个 样本 计算 其 所 属 类 别 。 

@ 对 于 每 个 类 重新 计算 聚 类 中 心 。 

聚 类 个 数 上 需要 提前 指定 。 

K 均值 算法 思想 简单 ,应 用 广泛 ,但 存在 以 下 缺点 : 

CD 需要 提前 指定 &, 但 是 在 大 多 数 情况 下 对 于 的 确定 是 困难 的 。 
(2) K 均值 算法 对 噪声 和 离 群 点 比较 敏感 ,可 能 需要 一 定 的 预 处 理 。 
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(3) 初始 聚 类 中 心 的 选择 可 能 会 导致 算法 陷 人 局 部 最 优 , 而 无 法 得 到 全 局 最 优 。 
6.3.2 DBSCAN 


DBSCAN(Density-Based Spatial Clustering of Applications with Noise. Hj i 
声 的 基于 密度 的 聚 类 方法 ) 是 在 1996 年 提出 的 一 种 基于 密度 的 空间 的 数据 聚 类 算 
法 。 该 算法 将 具有 足够 密度 的 区 域 划分 为 篮 , 并 在 具有 噪声 的 空间 数据 库 中 发 现任 
意 形 状 的 簇 , 它 将 簇 定义 为 密度 相连 的 点 的 最 大 集合 。 

该 算法 将 具有 足够 密度 的 点 作为 聚 类 中 心 , 即 核心 点 ,不 断 对 区 域 进行 扩展 。 该 
算法 利用 基于 密度 的 聚 类 的 概念 , 即 要 求 聚 类 空间 中 的 一 定 区 域内 所 包含 对 象 (点 或 
其 他 空间 对 象 ) 的 数目 不 小 于 某 一 给 定 阔 值 。 

DBSCAN 的 实现 过 程 如 下 : 

(1) DBSCAN 通过 检查 数据 集中 每 点 的 Eps 邻 域 ( 半 径 Eps 内 的 邻 域 ) 来 搜索 
d MS. p 的 Eps 邻 域 包含 的 点 多 于 MinPts 个 , 则 创建 一 个 以 p Jy Bobo e nfi o 

(2) DBSCAN 迭代 地 聚集 从 这 些 核 心 对 象 直接 密度 可 达 的 对 象 ,这 个 过 程 可 能 涉 
及 一 些 密度 可 达 簇 的 合并 (直接 密度 可 达 是 指 给 定 一 个 对 象 集 合 D, 如 果 对 象 p 在 对 象 
q 的 Eps 邻 域内 ,而 q 是 一 个 核心 对 象 , 则 称 对 象 p 为 对 象 q 直接 密度 可 达 的 对 象 ) 。 

G) 当 没 有 新 的 点 添加 到 任何 簇 时 该 过 程 结束 。 

其 中 ,Eps 和 MinPts 即 为 用 户 需 要 指定 的 参数 。 

DBSCAN 算法 的 优点 如 下 : 

(1) 聚 类 速度 快 且 能 够 有 效 处 理 噪声 点 和 发 现任 意 形状 的 空间 聚 类 。 

(2) 与 K-means 相 比 ,不 需要 输入 要 划分 的 聚 类 个 数 。 

(3) 聚 类 簇 的 形状 没有 bias. 

(4) 可 以 在 需要 时 输入 过 滤 噪 声 的 参数 。 

DBSCAN 算法 的 缺点 如 下 : 

(1) 当 数据 量 增 大 时 要 求 较 大 的 内 存 支持 I/O 消耗 也 很 大 。 

(2) 当空 间 聚 类 的 密度 不 均匀 、 聚 类 间距 差 相 差 很 大 时 聚 类 质量 较 差 , 因 为 在 这 
种 情况 下 参数 MinPts 和 Eps 的 选取 困难 。 

(3) 算法 聚 类 效果 依赖 于 距离 公式 的 选取 ,在 实际 应 用 中 常用 欧 氏 距离 ,对 于 高 
维 数据 ,存在 “ 维 数 灾难 ”。 
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DBSCAN 的 参数 选择 是 一 个 值得 探讨 的 话题 ,此 处 提供 一 个 参数 选取 策略 供 读 
者 参考 : 

如 实现 过 程 中 所 描述 ,DBSCAN 需要 指定 参数 Eps 和 MinPts, Eps 为 邻 域 的 半 
径 ,MinPts 则 是 一 个 核心 对 象 以 Eps 为 半径 的 邻 域内 点 的 最 小 个 数 ,两 者 之 间 存 在 
着 一 些 隐 含 关系 。 

DBSCAN 聚 类 用 到 一 个 人 距离 的 概念 ,距离 是 指 给 定数 据 集 P— (pO; ;一 0， 
la) ,对 于 任意 点 pO) ,计算 点 LOIRE D 的 子 集 S={p(1D), p2), =, pG— 
D, pGA D. c. p(n)} 中 所 有 点 之 间 的 距离 ,距离 按照 从 小 到 大 的 顺序 排序 ,假设 
排序 后 的 距离 集合 为 D={d4(1), d(2),…,d(k 一 1),d(k), d(k 十 DD) ，…,d(7)), 则 
d(k) 就 被 称 为 二 距离 。 也 就 是 说 ,距离 是 点 p (让 到 所 有 点 (除了 pO 站 点 ) 之 间距 离 
第 近 的 距离 。 对 聚 类 集合 中 的 每 个 点 p() 都 计算 大 距离 ,最 后 得 到 所 有 点 的 Ie E 
离 集 合 E={e(1), e(2), =, e(n)}。 

根据 经 验 计算 半径 Eps: 对 得 到 的 所 有 点 的 上 距离 集合 E 进行 升序 排序 得 到 k- 
距离 集合 E' ,需要 拟 合 一 条 排序 后 的 EE' 集 合 中 -距离 的 变化 曲线 图 ,然后 绘 出 曲线 ， 
通过 观察 ,将 急剧 发 生变 化 的 位 置 所 对 应 的 上 -距离 的 值 确定 为 半径 Eps 的 值 。 

根据 经 验 计 算 最 少 点 的 数量 MinPts: 确定 MinPts 的 大 小 ,实际 上 也 是 确定 大 距 
离 中 & 的 值 ,如 DBSCAN 算法 取 A 一 4, 则 MinPts 一 4。 

另外 ,如 果 对 经 验 值 聚 类 的 结果 不 满意 ,可 以 适当 调整 Eps 和 MinPts 的 值 ,经 过 
多 次 迭代 计算 对 比 ,选择 最 合适 的 参数 值 。 可 以 看 出 ,如 果 MinPts 不 变 ,Eps 取 的 值 
过 大 ,会 导致 大 多 数 点 都 聚 到 同一 个 簇 中 ,而 Eps 过 小 ,会 导致 一 个 簇 的 分 裂 ; 如 果 
Eps 不 变 ,MinPts 的 值 过 大 ,会 导致 同一 个 簇 中 点 被 标记 为 离 群 点 ,而 MinPts 过 小 ， 
会 导致 大 量 的 核心 点 。 

DBSCAN 算法 需要 输入 两 个 参数 ,这 两 个 参数 的 计算 都 来 自 经 验 。 半 径 Eps 的 
计算 依赖 于 计算 &- 距 离 ,DBSCAN 取 k==4, 也 就 是 设置 MinPts 一 4. 然 后 需要 基于 k- 
距离 曲线 根据 经 验 观察 找到 合适 的 半径 Eps 的 值 。 


6.4 回归 分 析 


回归 分 析 方法 反映 的 是 事务 数据 库 中 属性 值 在 时 间 上 的 特征 ,产生 一 个 将 数据 
项 映射 到 一 个 实 值 预测 变量 的 函数 ,发 现 变量 或 属性 间 的 依赖 关系 ,其 主要 研究 问题 
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包括 数据 序列 的 趋势 特征 .数据 序列 的 预测 以 及 数据 间 的 相关 关系 等 。 

回归 分 析 的 目的 在 于 了 解 变量 间 是 否 相关 以 及 相关 方向 和 强度 ,并 建立 数学 模 
型 来 进行 预测 。 

回归 问题 与 分 类 问题 相似 ,也 是 典型 的 监督 学 习 问题 ,与 分 类 问题 的 区 别 在 于 ， 
分 类 问题 预测 的 目标 是 离散 变量 ,而 回归 问题 预测 的 目标 是 连续 变量 。 由 于 回归 分 
析 与 线性 分 析 之 间 有 着 很 多 的 相似 性 ,所 以 用 于 分 类 的 经 典 算法 经 过 一 些 改动 即 可 
应 用 于 回归 分 析 , 典 型 的 回归 分 析 模 型 包括 线性 回归 分 析 、 支 持 向 量 机 (回归 )、K 近 
邻 ( 回 归 ) 等 。 


6.4.1 线性 回归 分 析 


线性 回归 分 析 与 分 类 分 析 算 法 中 的 逻辑 回归 类 似 ,逻辑 回归 为 了 将 实数 域 的 计 
算 结果 映射 到 分 类 结果 ,例如 二 分 类 问题 需要 将 映射 到 {0,1) 空 间 , 引 入 Logistic R 
数 。 在 线性 回归 问题 中 ,预测 目标 直接 是 实数 域 上 的 数值 ,因此 优化 目标 更 简单 , 即 
最 小 化 预测 结果 与 真实 值 之 间 的 差异 。 样 本 数量 为 m 的 样本 集 , 特 征 向 量 X — (n. 
Last sEm) OSEE BS IIR EL ER y 二 {yy ,ys，… ,ym)。 线 性 回归 则 是 用 线性 模型 刻画 特 
征 向 量 久 与 回归 目标 y 之 间 的 关系 : 

fx) = wara 二 + wea t de Wwa 十 0, 使 得 f(x;) S y, 

对 于 w Mo 的 确定 , 则 是 使 f(x;) 和 yw 的 差别 尽 可 能 小 。 那 么 如 何 衡量 两 者 之 
间 的 差别 ,在 回归 任务 中 最 常用 的 则 为 均 方 误差 ,基于 均 方 误差 最 小 化 的 模型 求解 方 
法 称 为 “最 小 二 乘法 ”, 即 找到 一 条 直线 使 样本 到 直线 的 欧 氏 距离 最 小 。 基 于 此 思想 ， 
损失 函数 工 可 以 被 定义 为 如 下 : 

LOw.b) = Dw — b)? 

求解 w 和 /使 得 损失 函数 最 小 化 的 过 程 称 为 线性 回归 模型 的 最 小 二 乘 * 参 数 
估计 ”。 

以 上 为 最 简单 形式 的 线性 模型 ,但 是 允许 有 一 些 变化 ,可 以 加 入 一 个 可 微 函数 
g AE y 和 了 f(x) 之 间 存 在 非 线 性 关系 ,形式 如 下 : 

yı = g> (wx; +b) 


这 样 的 模型 被 称 为 广义 线性 模型 ,函数 g 被 称 为 联系 函数 。 
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6.4.2 支持 向 量 回归 


支持 向 量 回归 与 传统 回归 模型 不 同 的 是 ,传统 回归 模型 通常 直接 基于 y 和 f(x) 
之 间 的 差别 来 计算 损失 , 当 O0 — y 时 损失 为 0; 支持 向 量 回归 则 是 对 f(x) 和 y 之 
间 的 差别 有 一 定 的 容忍 度 ,可 以 容忍 6 的 偏差 ,所 以 当 f(x) 和 y 之 间 的 偏差 小 于 e 时 
不 被 考虑 。 相 当 于 以 f(x) 为 中 心 构建 了 一 个 宽度 为 2e 的 间隔 带 , 若 落 入 此 间隔 带 ， 
则 被 认为 预测 正确 。 


6.4.3 天 近邻 回归 


用 于 回归 的 天 近邻 算法 与 用 于 分 类 的 天 近邻 算法 思想 类 似 , 通 过 找 出 一 个 样本 
的 个 最 近邻 居 , 将 这 些 邻 居 的 回归 目标 的 平均 值 赋 给 该 样本 ,就 可 以 预测 出 该 样本 
的 回归 目标 值 。 更 进一步 ,可 以 将 不 同 距 离 的 邻居 对 该 样本 产生 的 影响 给 予 不 同 的 
权 值 ,距离 越 近 影响 越 大 ,如 权 值 与 距离 成 正比 。 


ms 
D- 





实现 数据 的 分 析 


scikit-learn 





SciPy 是 一 个 常用 的 开源 Python 科学 计算 工具 包 , 开 发 者 针对 不 同 领域 的 特性 
发 展 了 众多 的 SciPy 分 支 ,统称 为 scikits, 其 中 以 scikit-learn 最 为 著名 ,经 常 被 运用 
在 数据 挖掘 建 模 以 及 机 器 学 习 领 域 。scikit-learn 所 支持 的 算法 、 模 型 均 是 经 过 广泛 
验证 的 ,涵盖 分 类 、 回 归 、 聚 类 三 大 类 。scikit-learn 还 提供 了 数据 降 维 、 模 型 选择 与 数 
据 预 处 理 的 功能 。 


7.1 分 类 方法 


7.1.1 Logistic 回归 


scikit-learn 中 的 Logistic 回归 在 sklearn. linear_model. LogisticRegression 类 中 
实现 ,支持 二 分 类 (binary) ,一 对 多 分 类 (one vs rest) 以 及 多 项 式 回归 ,并 且 可 以 选择 
L1 或 L2 正 则 化 。 

Code 7-1 为 Logistic 回归 示例 。 
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Code 7-1 Logistic 回归 示例 





In [1]: 


in [2]: 


in [3]: 


Out [3]: 


In [4]: 
Out [4]: 


import numpy as np 

from sklearn import linear model, datasets 

iris = datasets.load iris() 

X - iris.data 

Y = iris.target 

log reg = linear model. LogisticRegression() 

log reg.fit(X,Y) 

LogisticRegression(C- 1.0,class weight - None, dual - False, 
fit intercept = True, intercept scaling- 1,max iter = 100, 
multi class- 'ovr',n jobs- 1, penalty = '12', 
random state = None, solver = 'liblinear', tol = 0.0001, 
verbose- 0, warm start = False) 

log reg. predict([1,2,3,4]) 

array([2]) 


Code 7-1 使 用 sklearn 内 自 带 的 iris 数据 集 演示 了 如 何 利 用 LogisticRegression 
类 进行 训练 .预测 。LogisticRegression 类 中 提供 了 liblinear、newton-cg、lbfgs、sag 和 
saga 共 5 种 优化 方案 ,在 声明 时 通过 solver 字段 选择 ,其 中 liblinear 是 默认 选项 。 对 
于 solver 的 选择 ,大 概 遵循 表 7-1 中 的 规则 。 


表 7-1 Logistic 回归 中 solver 的 选择 











case solver 
L1 正则 "liblinear', 'saga' 
多 项 式 损失 (multinomial loss) 'Ibfgs’, 'sag', 'saga', 'newton-cg' 
大 数据 集 (n_samples) 'sag'. 'saga' 





liblinear 应 用 了 坐标 下 降 算法 (Coordinate Descent, CD) ,并 基于 scikit-learn 内 
附 的 高 性 能 C++ 库 LIBLINEAR library 实现 。 不 过 CD 算法 训练 的 模型 不 是 真正 意 
义 上 的 多 分 类 模型 ,而 是 基于 one-vs-rest 思想 分 解 了 这 个 优化 问题 ,为 每 个 类 别 都 训 
练 了 一 个 二 元 分 类 器 。 

lbfgs、sag 和 newton-cg 的 solvers( 求 解 器 ) 只 支持 L2 惩罚 项 ,对 某 些 高 维 数据 
收敛 更 快 。 这 些 求解 器 的 参数 multi_class 设 为 "multinomial' 即 可 训练 一 个 真正 的 多 
项 式 Logistic 回归 ,其 预测 的 概率 比 默认 的 one-vs-rest 设 定 更 为 准确 。 

sag 求解 器 基于 平均 随机 梯度 下 降 算法 (Stochastic Average Gradient descent) . 
在 大 数据 集 上 的 表现 更 快 ,大 数据 集 指 样本 量 大 上 且 特征 数 多 的 数据 集 。 
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saga 求解 器 是 sag 的 变 体 , 它 支持 非 平滑 Cnon-smooth) 的 L1 正则 选项 penalty = 
"ll AEX FLR Logistic 回归 往往 选用 该 求解 器 。 


7.1.2 SYM 


SVC, NuSVC, LinearSVC 都 能 够 实现 多 元 分 类 ,其 中 SVC 和 NuSVC 比较 接 
近 , 两 者 的 参数 略 有 不 同 ,LinearSVC 如 其 名 字 所 写 , 仅 支持 线性 核 函 数 的 分 类 。 
Code 7-2 以 iris 数据 集 为 例 演示 三 者 的 基本 操作 。 


In. [1]: 


In [2]: 


In [3]: 


Code 7-2 SVC,NuSVC,LinearSVC 示例 





import numpy as np 

from sklearn import svm, datasets 

iris = datasets.load iris() 

X = iris.data 

Y - iris.target 

clfl svm. SVC() 

clf2 svm. NuSVC( ) 

clf3 = svm.LinearSVC() 

clfl.fit(X, Y) 

SVC(C7 1.0, cache size= 200, class weight = None, coef0 = 0.0, 


decision function shape = None, degree = 3, gamma = 'auto', 
kernel = 'rbf',max iter- — 1, probability = False, random state = None, 
shrinking = True, tol = 0.001, verbose = False) 
clf2. fit(X,Y) 
NuSVC(cache size- 200, class weight = None, coef0 = 0.0, 
decision function shape = None, degree = 3, gamma = 'auto', 
kernel = 'rbf' max iter- —1, nu= 0.5, probability = False, 
random state = None, shrinking = True, tol = 0.001, verbose = False) 
c1f3. fit(X, Y) 
LinearSVC(C- 1.0, class weight - None, dual- True, fit intercept - True, 
intercept scaling - 1, loss = 'squared hinge', max iter = 1000, 
multi class = 'ovr', penalty = '12', random state = None, tol = 0.0001, 
verbose - 0) 
clfl.predict([1,2,3,4]) 
array([2]) 
c1f2. predict([1,2,3,4]) 
array([2]) 
c1f3. predict([1,2,3,4]) 
array([2]) 
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对 于 多 元 分 类 问题 ,SVC 和 NuSVC 可 以 通过 decesion_function_shape 字段 来 
声明 选择 ovo 或 ovr 以 使 用 one against one 或 one against rest 策略 (默认 选择 ovr)， 
而 LinearSVC 可 以 通过 multi, class 字段 选择 ovr 或 crammer_singer 以 使 用 one 


against rest 或 Crammer&Singer 策略 。 
在 拟 合 以 后 ,可 以 通过 support_vectors_、support_ 和 n. support 几 个 参数 来 获得 
模型 的 支持 向 量 (LinearSVC 不 支持 )。 上 例 中 clfl 的 支持 向 量 如 Code 7-3 所 示 。 


Code 7-3 3 个 参数 获取 afi 的 支持 向 量 











clf1. support_vectors_ 

asalli 4.3, 3., Ll 0.1], 
[5.9, 3., 5.1,  1.8]]) 

clfl.support 

array([13,15,18, 23,24,41,44,50,52,54,56,57,60,63,66,68,70,72,76,77, 
78,83,84,85,86,98,100,106,110,118,119,121,123,126,127,129, 
131, 133, 134,138, 141, 142, 146, 147, 149], dtype- int32) 

clfl.n support 

array([ 7, 19, 19], dtype- int32) 


support vectors 参数 获取 支持 向 量 机 的 全 部 支持 向 量 ,support_ 参数 获取 支持 
向 量 的 索引 ,n_support 获取 每 一 个 类 别 的 支持 向 量 的 数量 。 


7.1.3 Nearest neighbors 


scikit-learn 实现 了 两 种 不 同 的 最 近邻 分 类 器 KNeighborsClassifier 和 
RadiusNeighborsClassifier。 其 中 ,KNeighborsClassifier 基于 每 个 查询 点 的 人 个 最 近 
邻 实 现 ,是 用 户 指定 的 整数 值 ; RadiusNeighborsClassifier 基于 每 个 查询 点 的 固定 
半径 > 内 的 邻居 数量 实现 ,> 是 用 户 指定 的 浮 点 数值 。 两 者 相 比 , 前 者 的 应 用 更 多 。 


Code 7-4 为 一 


个 简单 的 最 近邻 分 类 示例 。 
Code 7-4 最 近邻 分 类 示例 





In [1]: 


In [2]: 


import numpy as np 

from sklearn import neighbors, datasets 
iris = datasets.load iris() 

X - iris.data 


Y - iris.target 
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In [3]: kclf = neighbors.KNeighborsClassifier() 
rclf = neighbors.RadiusNeighborsClassifier() 
In [4]: kclf.fit(X,Y) 
Out [4]: KNeighborsClassifier(algorithm = 'auto', leaf size - 30, metric = 'minkowski', 
metric params = None, n jobs- 1, n neighbors - 5, p- 2, 
weights = 'uniform') 
In [5]: rclf.fit(X,Y) 
Out [5]: RadiusNeighborsClassifier(algorithm = 'auto',leaf size = 30, 
metric = 'minkowski',metric params = None, 
outlier label = None, p = 2, radius = 1. 0, weights = 
'uniform') 
In [6]: kclf.predict([[1,2,3,4])) 
Out [6]: array([1]) 
In [7]: rclf.predict([[1,2,3,4])) 
Out [7]: array([1]) 





对 于 两 种 最 近邻 分 类 器 ,用 户 可 以 分 别 通 过 n. neighbors 与 radius 两 个 参数 来 设 
置 & 与 7 的 值 。K 近邻 分 类 的 & 值 的 选择 与 数据 相关 , 较 大 的 & 能 够 减少 噪声 的 影 
响 , 但 是 如 果 过 大 会 影响 分 类 的 效果 。 

通过 weights 参数 可 以 对 近邻 进行 加 权 , 默 认为 uniform, 即 各 个 “邻居 ”权重 相 
等 ; 也 可 声明 为 distance, 即 按照 距离 给 各 个 “邻居 ”权重 , 较 近 点 产生 的 影响 更 大 ; 还 
可 声明 为 一 个 用 户 自 定义 的 函数 给 近邻 加 权 。 

通过 algorithm 参数 能 够 指定 查找 最 近邻 所 用 的 算法 ,可 选项 有 ball_tree、kd_ 
tree、brute 和 auto ,分 别 对 应 ball tree、kd-tree、brute force search 以 及 自动 。 


7.1.4 Decision Tree 


scikit-learn 用 tree. DecisionTreeClassifier 实现 了 决策 树 分 类 ,支持 多 分 类 ,使 用 
方法 如 Code 7-5 所 示 。 


Code 7-5 ”决策 树 分 类 示例 





In [1]: import numpy as np 
from sklearn import tree, datasets 
In [2]: iris = datasets. load iris() 
X = iris.data 
Y = iris.target 
In [3]: clf - tree.DecisionTreeClassifier() 
clf.fit(X,Y) 


out [3]: DecisionTreeClassifier(class weight = None,criterion- 'gini', 
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max depth- None,max features - None, 
max leaf nodes = None,min impurity split- 1e- 07, 
min samples leaf =1,min samples split - 2, 
min weight fraction leaf - 0.0,presort - False, 
random state = None, splitter = 'best') 

In [4]: clf.predict([[1,2,3,4]]) 

Out [4]: array([2]) 





7.1.5 随机 梯度 下 降 


在 scikit-learn 中 ,linear_model. SGDClassifier 类 实现 了 简单 的 随机 梯度 下 降 分 
类 拟 合 线性 模型 ,支持 不 同 的 loss functions (H K RO M penalties for classification 
(分 类 处 罚 ) ,使 用 方法 如 Code 7-6 所 示 。 


Code 7-6 ”随机 梯度 下 降 分 类 示例 


In [1]: import numpy as np 
from sklearn import linear model, datasets 
In [2]: iris = datasets. load iris() 
X = iris.data 
Y = iris.target 
In [3]: clf = linear model.SGDClassifier 
clf.fit(X,Y) 
Out [3]: SGDClassifier(alpha = 0.0001, average = False, class weight = None, 
epsilon-0.1,eta0 -0.0, fit intercept- True, ll ratio - 0.15, 
learning rate = 'optimal', loss = 'hinge', n iter-5, n jobs- 1, 
penalty - '12', power t- 0.5, random state = None, shuffle = True, 
verbose - 0, warm start = False) 
In [4]: clf.predict([[1,2,3,4]]) 
Out [4]: array([2]) 





在 使 用 SGDClassifier 时 需要 预先 打 乱 训练 数据 或 在 声明 时 将 shuffle 参数 设置 
为 True( 默 认为 True) ,以 在 每 次 迭代 后 打 乱 数据 。 

通过 loss 参数 来 设置 损失 函数 ,可 选项 有 hinge、modified_huber 以 及 log( 默 认 
为 hinge) ,分 别 对 应 软 间隔 SVM(soft-margin SVM) .平滑 hinge 和 Logistic 回归 ,其 
中 hinge 5j modified huber 是 惰性 的 ,能 够 提高 训练 效率 。 

通过 class weight 字段 能 够 设置 分 类 权重 ,默认 所 有 类 别 权重 相等 , 均 为 1。 在 
使 用 时 可 以 用 形 如 {class: weight) fJ dict 指明 权重 或 声明 为 balance 以 自动 设置 各 类 
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权重 与 其 出 现 概率 成 反比 。 


7.1.6 高 斯 过 程 分 类 


gaussian_process. GaussianProcessClassifier 类 实现 了 一 个 用 于 分 类 的 高 斯 过 
程 ,其 使 用 方法 如 Code 7-7 所 示 。 


Code 7-7 ”高 斯 过 程 分 类 示例 





In [1]: 


In [2]: 


In [3]: 


Out [3]: 


In [4]: 
Out [4]: 


import numpy as np 

from sklearn import gaussian process, datasets 

iris = datasets.load iris() 

X - iris.data 

Y - iris.target 

clf = gaussian process. GaussianProcessClassifier() 

clf.fit(X,Y) 

GaussianProcessClassifier(copy X train- True, kernel = None, 
max iter predict = 100, multi class- 'one vs rest', 
n jobs- 1, n restarts optimizer = 0, 
optimizer = 'fmin l bfgs b', random state = None, 
warm start = False) 

clf.predict([[1,2,3,4]]) 

array([2]) 


高 斯 过 程 分 类 支持 多 元 分 类 ,支持 ovr 与 ovo 策略 (默认 为 ovr) ,在 ovr 策略 中 为 
每 个 类 都 训练 一 个 二 元 高 斯 过 程 分 类 器 ,将 该 类 与 其 余 类 分 开 ; 而 在 ovo 策略 中 每 两 


个 类 训练 一 个 


二 元 高 斯 过 程 分 类 器 ,将 两 个 类 分 开 。 对 于 高 斯 过 程 分 类 来 说 ,ovo 策 


略 可 能 在 计算 上 更 高 效 ,但 是 不 支持 预测 概率 估计 。 


7.1.7. 神经 网 络 分 类 (多 层 感知 器 ) 


neural. network. MLPClassifier 类 实现 了 通过 反 向 传播 进行 训练 的 多 层 感知 器 
(MLP) 算 法 ,Code 7-8 为 简单 示例 。 


Code 7-8 MLP 分 类 示例 





In [1]: 


In [2]: 


import numpy as np 

from sklearn import neural network, datasets 
iris = datasets.load iris() 

X - iris.data 
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In [4]: 
Out [4]: 
In [5]: 
Out [5]: 


Y - iris.target 

clf - neural network.MLPClassifier(hidden ) 

clf. fit(X,Y) 

MLPClassifier(activation = 'relu', alpha = 0.0001, batch size- 'auto', 
beta 1 = 0.9,beta 2 = 0.999, early stopping- False, epsilon- 1e- 08, 
hidden layer sizes- (100,), learning rate = 'constant', 
learning rate init- 0.001, max iter - 200, momentum = 0.9, 
nesterovs momentum = True, power t- 0.5, 
random state = None, shuffle = True, solver = 'adam', tol = 0.0001, 
validation fraction = 0. 1, verbose = False, warm start = False) 

clf.predict([[1,2,3,4]]) 

array([2]) 

clf.predict proba([[1,2,3,4]]) 

array([[ 0.0017448 , | 0.00269137, 0.99556383]]) 


hidden layer sizes 参数 可 以 用 一 个 tuple 声明 中 间 层 的 单元 数 ,tuple 的 每 一 项 
为 中 间 层 各 层 的 单元 数 (默认 为 一 层 中 间 层 ,100 个 单元 ) 。 

目前 ,MLPClassifier R 3c f 36 SCA 351 c 函数 ,通过 运行 predict. proba 方法 进行 
概率 估计 。MLP 算法 使 用 的 是 反 向 传播 的 方式 ,通过 反 向 传播 计算 得 到 的 梯度 和 某 
种 形式 的 梯度 下 降 来 进行 训练 。 对 于 分 类 来 说 , 它 最 小 化 交叉 炉 损失 函数 ,为 每 个 样 
本 给 出 一 个 向 量 形 式 的 概率 估计 ,如 Code 7-8 中 的 Out[L5] 所 示 。 


7.1.8 朴素 贝 叶 斯 示例 


scikit-learn 支持 高 斯 朴素 贝 叶 斯 、 多 项 分 布 朴素 贝 叶 斯 与 伯 努 利 朴素 贝 叶 斯 算 
法 ,分 别 由 naive_bayes. GaussianNB naive. bayes. MultinomialNB 与 naive. bayes. 
BernoulliNB 几 个 类 实现 ,三 者 的 具体 使 用 方法 如 Code 7-9 所 示 。 


Code 7-9 朴素 贝 叶 斯 示例 





In [2]: 


In [3]: 


In [4]: 


import numpy as np 

from sklearn import naive bayes, datasets 
iris = datasets.load iris() 

X - iris.data 

Y - iris.target 

gnb - naive bayes.GaussianNB() 

mnb = naive bayes.MultinomialNB() 

bnb - naive bayes.BernoulliNB() 

gnb. fit(X,Y) 


Out [4]: 
Zn. [5]: 
Out [5]: 
In [6]: 
Out [6]: 
In [7]: 
Out [7]: 
In [8]: 
Out [8]: 
In [9]: 
Out [9]: 
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GaussianNB(priors = None) 

mnb. fit(X,Y) 

MultinomialNB(alpha- 1.0, class prior- None, fit prior- True) 
bnb. fit(X,Y) 

BernoulliNB(alpha = 1.0, binarize - 0.0, class prior = None, fit prior- True) 
gnb. predict([[1,2,3,4]]) 

array([2]) 

mnb. predict([[1,2,3,4]]) 

array([2]) 

bnb. predict([[1,2,3,4]]) 

array([2]) 





MultinomialNB, BernoulliNB 和 GaussianNB 还 提供 了 partial. fit 方法 用 于 动态 
加 载 数据 以 解决 大 数据 量 的 问题 。 与 fit 方法 不 同 ,首次 调用 partial. fit 方法 需要 传 
递 一 个 所 有 期 望 的 类 标签 的 列表 。 


7.2 回归 方法 


7.2.1 最 小 二 乘法 


linear. model. LinearRegression 实现 了 普通 的 最 小 二 乘法 ,Code 7-10 为 简单 


示例 。 


in [1]: 


in. [2]: 


In [3]: 


Out [3]: 


In [4]: 
Out [4]: 


Code 7-10 ”最 小 二 乘法 示例 


import numpy as np 

from sklearn import linear model, datasets 

diabetes = datasets. load diabetes() 

X = diabetes. data 

diabetes. target 

reg = linear model.LinearRegression() 

reg. fit(X,Y) 

LinearRegression(copy X= True,fit intercept- True,n jobs = 1, 


K 
" 


normalize = False) 
reg.coef 
array([ - 10.01219782, - 239.81908937, 519.83978679, 324.39042769, 
— 792.18416163, 476.74583782, 101.04457032, 177.06417623, 
751.27932109, 67.62538639]) 





的 Python 数据 分 析 实战 | 


在 本 例 中 使 用 自 带 的 diabetes 数据 集 ,此 数据 集中 含有 442 条 包括 10 个 特征 的 


数据 。 


7.2.2 岭 回归 


linear_model. Ridge 类 实现 的 岭 回 归 通 过 对 系数 的 大 小 施加 惩罚 来 改进 普通 最 
小 二 乘法 ,其 使 用 方法 如 Code 7-11 所 示 。 


Code 7-11 上 岭 回归 示例 





Tn [ih 


In [2]: 


In [3]: 


Out [3]: 


In [4]: 
Out [4]: 


import numpy as np 

from sklearn import linear model, datasets 

diabetes = datasets.load diabetes() 

X = diabetes. data 

Y - diabetes. target 

rid - linear model.Ridge() 

rid.fit(X,Y) 

Ridge(alpha- 1.0, copy X= True, fit intercept = True, max iter = None, 

normalize = False, random state = None, solver = 'auto', tol = 0.001) 

rid.coef 

array([ 29.46574564, — 83.15488546, 306.35162706, 201.62943384, 
5.90936896, —29.51592665, — 152.04046539, 117.31171538, 
262.94499533, 111.878718 ]) 


Ridge 类 有 6 种 优化 方案 ,通过 solver 参数 指定 ,可 选择 auto, svd, cholesky, 
lsqr、sparse_cg、sag 或 saga, 默 认为 auto, 即 自动 选择 。 


7.2.3 Lasso 


Lasso 是 估计 稀 朴 系数 的 线性 模型 ,在 某 些 情况 下 是 有 用 的 ,因为 它 倾向 于 使 用 
具有 较 少 参数 值 的 情况 .有效 地 减少 了 所 依赖 变量 的 数量 。scikitrlearn 实现 的 linear 
model. Lasso 类 使 用 了 坐标 下 降 算 法 来 拟 合 系数 ,使 用 方法 如 Code 7-12 所 示 。 


Code 7-12 Lasso 示例 





In [1]: 


In [2]: 


import numpy as np 

from sklearn import linear model, datasets 
diabetes = datasets.load diabetes() 

X = diabetes. data 

Y - diabetes. target 
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In [3]: 1las - linear model.Lasso() 
las.fit(X,Y) 
Out [3]: Lasso(alpha- 1.0, copy X= True, fit intercept = True,max iter = 1000, 
normalize = False, positive = False, precompute = False, 
random state = None, selection = 'cyclic',tol- 0.0001, 
warm start - False) 
In [4]: 1las.coef 
Out [4]: array([ 0, -0., 367.70185207, 6.30190419, 0., 0., -0., 0., 307.6057, 0.]) 





在 scikit-learn 中 还 有 一 个 使 用 LARS( 最 小 角 回 归 ) 算 法 的 Lasso 模型 ,其 使 用 
方法 如 Code 7-13 所 示 。 


Code 7-13  LassoLars 示例 


In [1]: import numpy as np 

from sklearn import linear model, datasets 
In [2]: diabetes = datasets. load diabetes() 

X = diabetes. data 

Y = diabetes. target 

In [3]: larlas = linear model.LassoLars() 

larlas.fit(X,Y) 

Out [3]: LassoLars(alpha- 1.0, copy X= True, eps = 2.2204460492503131e - 16, 
fit intercept- True, fit path- True, max iter = 500, normalize = True, 
positive = False, precompute = 'auto', verbose = False) 

In [4]: larlas.coef 

Out [4]: array([0.,0.,367.69961855,6.31274948,0.,0.,0.,0.,307.60242913,0. ]) 


7.2.4 贝 叶 斯 岭 回归 


linear_model. BayesianRidge 实现 了 贝 叶 斯 岭 回归 ,能 在 回归 问题 的 估计 过 程 中 
引入 参数 正则 化 ,得 到 的 模型 与 传统 的 岭 回 归 也 比较 相似 ,具体 使 用 如 Code 7-14 
所 示 。 


Code 7-14 ” 贝 叶 斯 岭 回 归 示 例 





In [1]: import numpy as np 

from sklearn import linear model, datasets 
In [2]: diabetes = datasets. load diabetes() 

X = diabetes. data 

Y = diabetes. target 
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In [3]: byr = linear model.BayesianRidge 
byr.fit(X,Y) 
Out [3]: BayesianRidge(alpha 1- 1e- 06, alpha 2- 1e- 06, compute score = False, 
copy X= True,fit intercept = True, lambda 1= 1le- 06, 
lambda 2 = 1e- 06, n iter = 300, normalize = False, tol = 0.001, 
verbose - False) 
In [4]: byr.coef 
Out [4]: array([- 4.2352425, - 226.33093567, 513.46816685, 314.91003904, 
— 182. 28443825, — 4.36973384, — 159.20264426, 114.63609758, 
506.824866, 76.25520655]) 





虽然 因 贝 叶 斯 框架 的 缘故 , 贝 叶 斯 岭 回归 得 到 的 权 值 与 普通 最 小 二 乘法 得 到 的 
有 所 区 别 , 但 是 贝 叶 斯 岭 回 归 对 病态 问题 Gill-posed) 的 鲁 棱 性 相对 要 更 好 一 些 。 


7.2.5 决策 树 回归 


决策 树 用 于 回归 问题 时 与 用 于 分 类 时 类 似 ，scikitrlearn 中 的 tree. 
DecisionTreeRegressor 类 实现 了 一 个 用 于 回归 的 决策 树 模型 ,如 Code 7-15 所 示 。 


Code 7-15 ”决策 树 回归 示例 


In [1]: import numpy as np 
from sklearn import tree, datasets 
In [2]: diabetes = datasets. load diabetes() 
X = diabetes. data 
Y = diabetes. target 
In [3]: reg = tree.DecisionTreeRegressor() 
reg.fit(X,Y) 
Out [3]: DecisionTreeRegressor(criterion = 'mse', max depth = None, 
max features - None,max leaf nodes - None, 
min impurity split- 1e- 07,min samples leaf = 1, 
min samples split- 2,min weight fraction leaf = 0.0, 
presort- False, random state = None, litter = 'best') 
In [4]: reg.predict([[0,1,2,3,4,5,6,7,8,9]]) 
Out [4]: array([ 279.]) 





7.2.6 高 斯 过 程 回归 


gaussian_process. GaussianProcessRegressor 类 实现 了 一 个 用 于 回归 问题 的 高 


斯 过 程 ,Code 7-16 为 简单 示例 。 


Code 
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7-16 高 斯 过 程 回归 示例 





In [1]: 


in [2]: 


In [3]: 


Out [3]: 


In [4]: 
Out [4]: 


import numpy as np 


from sklearn import gaussian process, datasets 


diabetes - datasets 
X - diabetes.data 
Y = diabetes. target 


.load diabetes() 


gpr = gaussian process. GaussianProcessClassifier() 


gpr.fit(X,Y) 


GaussianProcessRegressor(alpha = le- 10, copy X train- True, 


kernel = None,n restarts optimizer = 0, 
normalize y= False, optimizer = 'fmin l bfgs b', 


random state = None) 


gpr. predict([[0,1,2,3,4,5,6,7,8,9]]) 
array([ —6.86424900e - 53]) 


7.2.7 最 近邻 回归 


与 最 近邻 分 类 一 样 , scikit-learn 实现 了 两 种 最 近邻 回归 KNeighborsRegressor 
和 RadiusNeighborsRegressor, 分 别 基于 每 个 查询 点 的 上 个 最 近邻 ,每 个 查询 点 的 固 
定 半径 + 内 的 邻 点 数量 实现 ,Code 7-17 为 两 者 的 示例 。 


Code 7-17 最 近邻 回归 示例 


import numpy as np 


from sklearn import neighbors, datasets 
diabetes = datasets. load diabetes() 


X = diabetes. data 
Y = diabetes. target 


kreg = neighbors.KNeighborsRegressor() 


rreg - neighbors.RadiusNeighborsRegressor() 


kreg.fit(X,Y) 
KNeighborsRegressor( 


rreg. fit(X,Y) 


algorithm = 'auto', leaf_size = 30, 
metric = 'minkowski',metric params = None, n jobs- 1, 


n neighbors = 5, p-2,weights = 'uniform') 


RadiusNeighborsRegressor(algorithm = 'auto', leaf size- 30, 


metric = 'minkowski',metric params = None, p=2, 
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radius = 1.0, weights = 'uniform') 
In [6]: kreg.kneighbors graph(X).toarray() 
Gut [6]: wmm [D1., CE XE. 0€ O95. 5L 
[ 0.， Ee Miess Tr- Ce- Sik 


Piy reng. 05e 05s  0dy 
[Ut Xu) ugs deu cse Uc 
DO, dg. Ubro Ou. dis CU 
|o E CE TREE PEE IE E D 


In [7]: rreg.radius neighbors graph (X).toarray() 
D [2]: .array(ü[ [1.4 Lj ££... (b 
[i di Xue. hs d: 
[ü Er unes duy) ALS 3:45 
Pios ie hesan o Rhe Che dh 
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Ei d díasex Aa i 
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与 最 近邻 分 类 器 类 似 , 用 户 也 可 以 通过 n. neighbors 与 radius 两 个 参数 来 设置 人 
与 r 的 值 ,通过 weights 参数 对 近邻 进行 加 权 , 选 择 uniform, distance 或 直接 自 定 义 
一 个 函数 。 


7.3 ESSA E 


7.3.1 天 -means 


在 scikit-learn 中 实现 K-means 算法 的 类 有 两 个 ,其 中 cluster. KMeans 类 实现 了 
一 般 的 K-means 算法 ,cluster. MiniBatchKMeans 类 实现 了 K-means 的 小 批量 变 体 ， 
在 每 一 次 迭代 时 进行 随机 抽样 ,减少 了 计算 量 ,减少 了 计算 时 间 :而 最 终 聚 类 结果 与 
正常 的 K-means 算法 相 比 差别 不 大 :其 示例 如 Code 7-18 所 示 。 


Code 7-18  K-means 聚 类 示例 





In [1]: import numpy as np 

from sklearn import cluster, datasets 
In [2]: irist - datasets.load iris() 

X - iris.data 


In [3]: 
In [4]: 


Out [4]: 


in [5]: 
Out [5]: 


In [6]: 
Out [6]: 


In [7]: 
Out [7]: 


kms = cluster. KMeans() 
mbk = cluster.MiniBatchKMeans() 


kms.fit(X) 


l 第 7 章  scikit-learn 





实现 数据 的 分 析 





KMeans(algorithm = 'auto', copy x- True, init= 'k- means**', max iter = 300, 


n clusters -8, n init- 10, n jobs- 1, precompute distances = 'auto', 


random state = None, tol = 0.0001, verbose = 0) 


mbk.fit(X) 


MiniBatchKMeans(batch size - 100, compute labels = True, 


kms.cluster centers 


array([[6. 
[5. 
Ü: 
[5. 
[6. 
[4. 
[5. 
[6. 


mbk.cluster centers 


array([[5. 
[6. 
E5. 
[6. 
[7. 
[4. 
i5; 
Ev 


init= 'k- meanst*', init size- None, max iter = 100, 


max no improvement - 10, n clusters - 8, 


n init-3, random state = None, reassignment ratio - 0.01, 


tol = 0.0, verbose = 0) 


46666667, 
26538462, 
475 " 
675 " 
56818182, 
725 , 
39230769, 
03684211, 


15596708, 
55851852, 
5016129 , 
31748466, 
45238095, 
70839161, 
5325 , 
95478723, 


MOM OQ QD oON ww 


Mo QOO OM MOOD UD 


.98333333, 
.68076923, 
125 A 
81235 , 
. 08636364, 
. 13333333, 
. 43846154, 
. 70526316, 


. 53744856, 
. 05037037, 
. 58548387, 
. 93067485, 
. 12789116, 
. 10524476, 
03125 , 
. 74734043, 


mwh ou na hm A 


.6 
.50384615, 
:3 F 
.243175 , 
.53636364, 
.42083333, 
.65384615, 


.5345679 , 
.49481481, 
.90870968, 
.58588957, 
.28707483, 
.40524476, 
4675 —., 
.00265957, 


"P |HONM PeNMotu 


PP 口 口 


.42777118], 
.29230769], 
.05 ], 
.33125 J, 
.16363636], 
.19166667], 
.12307692], 
.77894737]]) 


.28683128], 
.13888889], 
.20225806], 
.45122699], 
.06394558], 
.18776224], 
.29 L 
.8 ]]) 





两 种 K-means 实现 在 使 用 时 都 需要 通过 n. clusters 指定 聚 类 的 个 数 , 如 果 不 指 
定 , 则 默认 为 8。 

如 果 给 定 足 够 的 时 间 , K-means 算法 总 能 够 收敛 ,但 有 可 能 得 到 的 是 局 部 最 小 
值 ,而 质心 初始 化 的 方法 将 对 结果 产生 较 大 的 影响 。 通 过 init 参数 可 以 指定 聚 类 质 
心 的 初始 化 方法 ,默认 为 “k-means 十 十 ”使 用 一 种 比较 智能 的 方法 进行 初始 化 ,各 个 
初始 化 质心 彼此 相距 较 远 ,能 加 快 收敛 速度 ; 也 可 选择 random 或 指定 为 一 个 
ndarray, 即 初始 化 为 随机 的 质心 或 直接 初始 化 为 一 个 用 户 自 定义 的 质心 。 另 外 , 指 


O 
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定 n_init 参数 也 可 能 改善 结果 ,算法 将 初始 化 n_init 次 ,并 选择 结果 最 好 的 一 次 作为 
最 终结 果 ( 默 认为 3 次 ) 。 

在 使 用 cluster. KMeans 时 .n jobs 参数 能 指定 该 模型 使 用 的 处 理 器 个 数 。 若 为 
正 值 , 则 使 用 n jobs 个 处 理 器 ; 若 为 负 值 , 一 1 代表 使 用 全 部 处 理 器 ,一 2 代表 “除了 
一 个 处 理 器 以 外 全 部 使 用 ”, 一 3 代表 “除了 两 个 以 外 全 部 使 用 ”, 以 此 类 推 。 


7.3.2 Affinity propagation 


Affinity propagation 算法 通过 在 样本 对 之 间 发 送 消息 (吸引 信息 与 归属 信息 ) 直 
到 收敛 来 创建 聚 类 ,使 用 少量 示例 样本 作为 聚 类 中 心 。 在 scikit-learn 中 使 用 cluster. 
AffinityPropagation 实现 了 AP 聚 类 算法 ,Code 7-19 为 示例 。 


Code 7-19 Affinity propagation 聚 类 示例 


In [1]: import numpy as np 

from sklearn import cluster, datasets 
In [2]: irist = datasets.load iris() 

X = iris.data 

In [3]: ap = cluster. Aff inityPropagation() 

ap.fit(X) 

Out [3]: AffinityPropagation(affinity - 'euclidean', convergence iter = 15, 
copy = True, damping = 0.5, max iter = 200, preference = None, 
verbose - False) 

In [4]: ap.cluster centers 

Out [4]: array([[ 4.7, 3.2, 1.3, 0.2], 

[5:3 3.4 LS, 0:2], 
[6.5. 2,8, 46, 1:5] 
[5:6 2,5, 39, 11l; 
L6. 2:4, Sio 1,061; 
LTO 3.4 6:6," 2.1]; 
[6.85 . 3.5 5.5. 2:111) 





AlfinityPropagation 类 有 3 个 比较 关键 的 参数 , 即 affinity, damping 与 preference. 
其 中 ,affinity 为 相似 度 度量 方式 ,支持 precomputed 和 euclidean 两 种 ,对 应 预先 计算 
与 欧 几 里 得 两 种 : damping 为 阻尼 因子 ,可 以 设置 为 0.5 一 1 的 浮 点 数 ,通过 减少 信息 
来 防止 更 新 信息 时 引起 的 数据 振荡 ; preference 则 是 一 个 向 量 ,代表 对 各 个 点 的 偏 
好 , 值 越 高 的 点 越 可 能 被 选 为 样本 。 
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7.3.3 Mean-shift 


Meanr-shift( 均 值 漂移 ) 算 法 与 K-means 一 样 也 是 基于 质心 的 算法 ,但 是 此 算法 
会 自动 设 定 聚 类 个 数 ,具体 使 用 方法 如 Code 7-20 所 示 。 


Code 7-20 Mean-shift 聚 类 示例 





In [1]: 


in I2]: 


In [3]: 


Out [3]: 


In [4]: 
Out [4]: 


import numpy as np 

from sklearn import cluster, datasets 

irist - datasets.load iris() 

X - iris.data 

ms 7 cluster.MeanShift() 

ms.fit(X) 

MeanShift(bandwidth = None, bin seeding- False, cluster all- True, 

min bin freq- 1,n jobs- 1, seeds = None) 

ms.cluster centers. 

array([[ 6.21142857,  2.89285714,  4.85285714,  1.67285714], 
[ 5.01632653,  3.44081633,  1.46734694,  0.24285714]]) 


Mean-shift 算法 不 是 高 度 可 扩展 的 ,因为 在 执行 算法 期 间 需 要 执行 多 个 最 近邻 
搜索 。 此 算法 收敛 ,但 是 当 质心 的 变化 较 小 时 将 直接 停止 迭代 。MeanShift 类 在 声明 
时 可 以 用 bandwidth 参数 设置 一 个 浮 点 数 的 “带宽 ”以 选择 搜索 区 域 , 若 不 设 定 , 则 默 
认 使 用 sklearn. cluster. estimate bandwidth 这 一 自 带 的 评估 函数 。 


7.3.4 Spectral clustering 


Spectral clustering 可 视 为 K-means 的 低 维 版 ,适用 于 聚 类 较 少 时 ,对 于 聚 类 较 
多 的 情况 不 适用 。 其 使 用 方法 如 Code 7-21 所 示 。 


Code 7-21 Spectral clustering 示例 





In [1]: 


In [2]: 


In [3]: 


Out [3]: 


import numpy as np 

from sklearn import cluster, datasets 

irist = datasets.load iris() 

X - iris.data 

Sc 7 cluster. SpectralClustering() 

sc.fit(X) 

SpectralClustering(affinity - 'rbf', assign labels = 'kmeans', coef0 = 1, 
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In 


degree = 3, eigen solver = None, eigen tol = 0.0，gamma = 1.0, 
kernel params = None,n clusters = 8, n init - 10, n jobs- 1, 
n neighbors = 10,random state = None) 

[4]: sc.labels 


Out [4]: array([2, 4, 4, 4, 2, 2, 4, 2, 4, 4, 2, 4, 4, 4, 2, 2, 2, 2, 2, 2, 2, 2, 4, 
2; 4,4, 2, 2,2; 4, 48,2, .2, 2, 4, 4, 2; 4, 43; 2, 2, 4, 4, 2,2; 4, 
2,45, 2, 4, 5,:5,:5,.1,:5, 1, 5, 9,5; 3, 7, 3, 1, 5, 3,5, 3, 3, 1; 
1,3, 1, 3,5,:5,. 5, 5,5, 1 1; 7, 7, 1, 3, 1, 5; 5, 5, 3, 1, 3,5; 
1,7; 1,1, 1;5, 1, 3;/0, 3,0, 0; 0,6; 16,0; 6; 0, 3, 0, 3,.3; 
0,0, 6;.6,. 3, 0,..3,.6, 3,.0,./6, 3,3, 0,.6,/6, 6, 0, 3, 3, 6, 0, 0; 
3, 0, 0, 0, 3, 0, 0, 0, 3, 0, 0, 3], dtype- int32) 





用 户 可 以 设置 assign labels 参数 以 使 用 不 同 的 分 配 策略 ,默认 的 kmeans 可 以 匹 
配 更 精细 的 数据 细节 ,但 是 可 能 更 加 不 稳定 。 另 外 ,除非 设置 random. state. 否则 可 
能 由 于 随机 初始 化 的 原因 无 法 复 现 运行 的 结果 。 使 用 discretize 策略 是 一 定 能 复 现 


的 ,但 往 





7,3.5 


往 会 产生 过 于 均匀 的 几何 边缘 。 


Hierarchical clustering 


Hierarchical clustering( 层 次 聚 类 ) 是 一 个 常用 的 聚 类 算法 ,通过 将 数据 进行 不 断 
地 分 割 或 合并 来 构建 聚 类 。cluster. AgglomerativeClustering 类 实现 了 自 下 而 上 的 
层次 聚 类 ,由 单个 对 象 的 聚 类 逐渐 合并 得 到 最 终 聚 类 。 其 具体 用 法 如 Code 7-22 


所 示 。 


In 


In 


Code 7-22 ”层次 聚 类 示例 


[1]: import numpy as np 
from sklearn import cluster, datasets 
[2]: irist = datasets.load iris() 
X - iris.data 
[3]: ag = cluster. AgglomerativeClustering() 
ag.fit(X) 


Out [3]: AgglomerativeClustering(affinity- 'euclidean', compute full tree- 'auto', 


In 


connectivity - None, linkage - 'ward', 

memory = Memory(cachedir = None), n clusters = 2, 

pooling func = < function mean at Oxl0cf20ae8>) 
[4]: ag.labels 


Out [4]:. array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 17.3; 1, 1, 2, 1, 1, 1; 1, 1, 1, 1, 


1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 
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1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, O, O, O, O, O, 0, O, 0, O, 0, 0; 
0, 0, 0, 0, 0, O, 0, O, 0, O, 0, O, 0, O, 0, O, O, O, O, O, 0, O, 0, 
0, 0, 0, 0, 0, O, 0, O, O, O, O, O, 0, O, 0, O, O, O, O, O, 0, O, O, 
0, 0, 0, O, 0, O, 0, O, Oy O, 0, O, O, O, O, O, O, O, O, O, 0, O, Oy 
0, 0, O, 0, 0, 0, 0, 0, O, O, 0, 0]) 





利用 n. clusters 参数 可 以 指定 聚 类 个 数 , 默 认为 2。linkage 参数 则 是 用 于 合并 
的 策略 ,可 选择 ward、complete 或 average, JEP ward 为 默认 选项 ,最 小 化 所 有 聚 类 
内 的 平方 差 总 和 ,是 一 种 方差 最 小 化 的 优化 方向 ,与 K-means 的 目标 函数 相似 ; 
complete 最 小 化 聚 类 对 两 个 样本 之 间 的 最 大 距离 ; average 最 小 化 聚 类 对 两 个 聚 类 
中 样本 距离 的 平均 值 。 

AgglomerativeClustering 类 也 支持 使 用 连接 矩阵 (connectivity matrix) 标 明 每 个 
样本 的 相 邻 项 ,从 而 增加 连接 约束 ,只 对 相 邻 的 聚 类 进行 合并 。 在 某 些 问题 中 ,这 样 
做 能 够 取得 更 好 的 局 部 结构 ,使 得 结果 更 加 合理 。 


7.3.6 DBSCAN 


DBSCAN 算法 将 聚 类 视 为 被 低 密度 区 域 分 隔 的 高 密度 区 域 ,其 核心 概念 是 core 
samples, 即 位 于 高 密度 区 域 的 样本 。 因 此 一 个 聚 类 可 视 为 一 组 核心 样本 和 一 组 接近 
核心 样本 的 非 核心 样本 ,其 中 核心 样本 之 间 彼 此 接近 。Code 7-23 为 DBSCAN 示例 。 


Code 7-23 DBSCAN 示例 


In [1]: import numpy as np 

from sklearn import cluster, datasets 
In [2]: irist - datasets.load iris() 

X - iris.data 
In [3]: db - cluster. DBSCAN() 

db.fit(X) 

Out [3]: DBSCAN(algorithm- 'auto', eps - 0.5, leaf size- 30, metric- 'euclidean', 
min samples - 5, n jobs- 1, p= None) 

In [4]: db.labels. 

Out [4]: array([ 0, 0, 0, 0, 0, 0, O, 0, O, O, O, O, O, O, 0, O, 0,0, O, 0, 0, 0, O, 0, 0, O, 
0, 0, 0, 0, O, 0, O, 0,0, 0, 0, 0, 0, 0, 0, - 1, 0, O, O, O, 0, 0, 0, 0, 1, 
1,1,1,1,1,1,-1,1,1, -1,1, 1, 1, 1, 1, 1, 1, - 1, 1, 1, 1, 3, 1, 1, 
1, 1, 1, 1, 1, 1, 1; 1, 1, 1,1, 1, — 1, 1, 1, 1; 1, 1, -1, 1; 1, 1; 1, — 1; 
1,1, 1,1, 1,1,—1,-1, 1; —-1,—- 1, 1; 1; 1, 1, 1, 1; 1, - 1, — 4; 1; 1, 1, 
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1, 1, 1, 1, 1]) 





min samples 5j eps 两 个 参数 决定 了 DBSCAN 的 密度 , 较 大 的 min. samples 或 
者 较 小 的 eps 表示 形成 聚 类 所 需 的 密度 较 高 。eps 指 的 是 两 个 点 能 被 视 为 邻居 的 最 
大 距离 ,min_samples 指 的 是 一 个 点 被 视 为 核心 所 需要 的 最 少 的 邻居 。 

algorithm 参数 指定 了 在 计算 “邻居 ”时 所 用 的 算法 ,与 Nearest neighbor 一 样 ,可 
选项 有 ball_tree,kd_tree, brute 和 auto, 


7.3.7 Birch 


Birch 为 提供 的 数据 构建 一 棵 聚 类 特征 树 (CFT)。 数 据 实 际 上 被 有 损 压 缩 成 一 
组 聚 类 特征 结 点 (CF Nodes) ,在 结 点 中 有 一 部 分 子 聚 类 被 称 为 聚 类 特征 子 聚 类 (CF 
Subclusters) ,并 且 这 些 位 于 非 终端 位 置 的 CF Subclusters 可 以 拥有 聚 类 特征 结 点 作 
为 子 结 点 。Code 7-24 为 Birch 示例 。 


Code 7-24 Birch 示例 


In [1]: import numpy as np 
from sklearn import cluster, datasets 
In [2]: irist = datasets.load iris() 
X - iris.data 
In [3]: bir = cluster.Birch() 
bir.fit(X) 
Out [3]: Birch(branching factor = 50, compute labels = True, copy = True, 
n clusters = 3, threshold = 0.5) 
In [4]: bir.labels 
Out [4]: array([2, 


s 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 


NES 
2, 2, 2. 

2; 4, 2, 8i; 0, 0, 1, 0, 0, 9; 
1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 
1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, O, 
0, 0, 0, 0, O, 0, 0, O, O, O, 0, O, O, O, O, O, O, O, O, O, 0; O, O, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]) 


2 
和 

1, 0, 1, 1, 0, 1, 0, 1, 0; 0, 1, 0; 

: d 


; 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 





此 算法 有 两 个 重要 参数 , 即 threshold CE (ÉD Il branching factor 4: XE EN T0. H 
中 ,分 支 因子 限 制 了 一 个 结 点 中 的 子 集群 的 数量 . 阅 值 限制 了 新 加 入 的 样本 和 存在 于 
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现 有 子 集群 中 样本 的 最 大 距离 。 

该 算法 可 以 视 为 将 一 个 实例 或 者 数据 简化 的 方法 ,可 以 直接 从 CFT 的 叶子 结 点 
中 获取 一 组 子 聚 类 。 这 种 简化 的 数据 可 以 通过 全 局 聚 类 来 处 理 。 全 局 聚 类 可 以 通过 
n clusters 参数 来 设置 ,如 果 设 置 为 None, 将 直接 读 取 叶子 结 点 中 的 子 聚 类 ,否则 将 
逐步 标记 其 子 聚 类 到 全 局 聚 类 ,样本 将 被 映射 到 距离 最 近 的 子 聚 类 所 对 应 的 全 局 
RŽ. 
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Matplotlib? 是 利用 Python 进行 数据 分 析 的 一 个 重要 的 可 视 化 工具 。 利 用 
Matplotlib, 用 户 只 需 少量 的 代码 就 能 够 绘制 多 种 高 质量 的 二 维 \ 三 维 图 形 。 作 为 
Matplotlib 的 关键 模块 ,pyplot 提供 了 诸多 接口 ,能 够 快速 构建 多 种 图 表 , 例 如 函数 图 
像 .直方 图 、 散 点 图 等 。pyplot 和 Matlab 的 画图 接口 非常 相似 ,因此 熟悉 Matlab 的 
数据 分 析 人 员 几 乎 可 以 直接 上 手 使 用 ; 同时 ,由 于 pyplot 的 画图 方式 简单 .清晰 ,对 
于 初次 接触 数据 分 析 的 学 习 者 而 言 学 习 成 本 也 是 较 低 的 。 由 于 篇 幅 限 制 , 本 章 仅 对 
Matplotlib 中 的 基本 概念 和 常用 接口 进行 介绍 ,对 于 详细 的 信息 及 更 复杂 的 示例 , 读 
者 可 以 阅读 官方 提供 的 详细 文档 。 


8.1 基本 布局 对 象 


在 Matplotlib 中 Figure 对 象 是 绘制 所 有 图 表 的 基础 ,一 切 图 表 元 素 , 包 括 点 、 线 、 
图 例 .坐标 等 ,都 是 包含 在 Figure 中 的 。 在 Figure 的 基础 之 上 可 以 构建 多 个 Axe, 将 
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一 个 Figure 切 分 成 多 个 区 域 , 展 示 不 同 的 图 表 对 象 。 例 如 需要 建立 一 个 Figure, 它 拥 
有 2X2 的 Axe 布 局 ,这 一 过 程 可 以 由 Code 8-1 实现 。 


Code 8-1 建立 Figure 





In [1]: import matplotlib.pyplot as plt 
In [2]: fig,axes= plt.subplots(2,2) 
In [3]: plt.show() 





Code 8-1 的 运行 结果 如 图 8-1 所 示 o 
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00 02 04 06 08 1.0 00 02 04 06 08 1.0 
图 8-1 多 个 Axe 的 布局 
Code 8-1 首先 建立 了 一 个 figure 对 象 ,并 在 其 上 建立 了 4 个 axe。In[L2] 建 立 了 
一 个 拥有 2X2 个 subplot 的 Figure, 这 里 的 subplot 可 以 理解 为 Axe。 目 前 这 些 Axe 
还 是 空 的 ,用 户 可 以 为 其 添加 图 表 内 容 。 
Code 8-2 为 建立 多 个 Axe。 


Code 8-2 建立 多 个 Axe 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 
In [2]: fig,axes- plt.subplots(2,2, figsize- (10,10)) 
In [3]: #simple plots 
t = np.arange(0.0, 2.0, 0.01) 
S = 1 + np.sin(2 * np.pi * t) 
axes[0,0]. plot(t,s) 
axes[0,0].set title('simple plot') 
In [4]: &£histograms 
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np. random. seed(20180201) 
s = np.random.randn(2,50) 
axes[0,1].hist(s[0]) 
axes[0,1]. set_title( 'histogram') 
In [5]: £scatter plots 
axes[1,0]. scatter(s[0],s[1]) 
axes[1,0].set title('scatter plot') 
In [6]: #pie charts 
labels = 'Taxi', 'Metro', '"Walk', 'Bus', Bicycle', Drive' 
sizes - [10, 30, 5, 25, 5, 25] 
explode - (0, 0.1, 0, 0, 0, 0) 
axes[1,1].pie(sizes, explode = explode, labels = labels, autopct- '$1.1f$ %', 
shadow = True, startangle = 90) 
axes[1,1].axis('equal') 
axes[1,1].set title('pie chart'); 
In [7]: plt.savefig('figure.svg') 
plt.show() 


通过 Code 8-2. 7E Figure 的 4 个 Axe 中 绘制 了 一 个 正弦 函数 图 像 .一 个 直方 图 、 
一 个 散 点 图 和 一 个 饼 图 ,如 图 8-2 所 示 。 构 建 这 些 图 表 的 主要 步骤 包括 准备 数据 、 生 
成 图 表 对 象 并 将 数据 传人 以 及 调整 图 表 装饰 项 。 以 正弦 函数 图 像 为 例 ,首先 定义 横 、 
纵 坐 标 轴 的 数据 ,其 中 横 坐 标 轴 是 以 0. 01 为 间隔 的 0 一 2 范围 内 的 所 有 数 , 纵 坐标 利 
用 sinO 〇 函数 计算 对 应 的 函数 值 并 整体 向 上 平移 了 1 个 单位 ,两 者 组 合 形成 多 个 点 ， 
描述 了 函数 图 像 的 形状 ; 然后 为 左上 角 的 subplot 建立 一 个 plot 对 象 ,并 将 生成 的 多 
个 点 传人 其 中 ,生成 函数 图 像 ; 最 后 修改 该 subplot 的 图 表 装 饰 项 ,为 其 添加 了 标题 。 
在 InL7] 中 ,savefig() 函 数 能 够 将 生成 的 plot 保存 为 图 片 , 图 片 的 常用 可 选 格式 包括 
png、pdf 和 svg 等 ,所 有 支持 格式 详 见 官方 文档 。 在 保存 图 片 时 可 以 使 用 dpi 参数 指 
定 图 片 的 清晰 度 , 该 参数 表示 的 是 每 英寸 点 数 ,因此 数值 越 大 图 片 越 清 楚 。 除 此 之 
外 ,用 户 还 可 以 使 用 bbox_inches 参数 指定 图 片 周 边 的 空白 部 分 ,bbox_inches 的 常用 
值 为 tight, 表 示 图 片 带 有 最 小 宽度 的 空白 。 若 图 表 中 有 些 部 分 (例如 图 例 或 注解 ) 超 
过 了 Axe 的 范围 , 则 需要 指定 bbox_inches 参数 ,否则 超出 范围 的 部 分 将 无 法 被 保存 
在 图 片 中 。 

除了 Code 8-1 所 示 的 方法 ,用 户 也 可 以 使 用 Code 8-3 直接 建立 并 选中 一 个 


subplot, 
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图 8-2 多 个 Axe 布局 的 图 表 实 例 


Code 8-3 直接 建立 并 选中 一 个 subplot 的 方式 


In [1]: import matplotlib.pyplot as plt 
In [2]: fig-plt.figure() 
In [3]: axe-pilt.subplot(2,2,1) 
axe = plt. subplot(2,2,3) 
In [4]: fig.suptitle('Example of multiple subplots') 
In [5]: plt.show() 





其 运行 结果 如 图 8-3 所 示 ,InL3] 表 示 Figure 中 的 subplot 布局 为 2X2, 同 时 分 别 
选中 了 索引 为 1 和 3 的 subplots subplot 从 1 开始 编号 ,和 C++ 中 的 多 维 数组 按 行 存储 
的 方式 类 似 , 先 对 同一 行 的 subplot 进行 编号 ,全 部 编号 完成 后 再 对 下 一 行进 行 编号 。 

图 8-4 详细 地 展示 了 一 个 Figure 中 的 组 成 元 素 。 组 成 图 表 的 每 一 个 元 素 几 乎 都 
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图 8-3 使 用 pyplot. subplot() 函 数 建立 并 选中 Axe 


可 以 通过 Matplotlib 提供 的 接口 进行 修改 ,坐标 轴 的 刻度 ,标签 等 细节 也 可 以 进行 个 
性 化 修改 。 在 8. 2 节 中 将 会 详细 介绍 如 何 对 图 表 样 式 进行 修改 。 


A f a fi 
& nahy c a figure 
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图 8-4 Figure 的 组 成 (来 源 于 官方 文档 ) 
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8.2 图 表 样 式 的 修改 以 及 装饰 项 接口 


Matplotlib 定义 了 详细 的 图 表 装 饰 项 接口 ,能够 对 图 表 的 几乎 每 一 个 细小 的 样 
式 进行 更 改 。 例 如 ,用 户 可 以 自由 变换 函数 图 像 线 条 的 种 类 和 颜色 ,也 可 以 对 坐标 轴 
的 刻度 和 标签 进行 更 改 , 甚 至 可 以 在 图 表 的 任意 位 置 加 上 一 行文 字 注 释 。 本 节 将 选 
择 部 分 样式 和 装饰 项 讲解 其 创建 及 修改 方法 。 


1. 修改 图 表 样 式 一 一 以 函数 曲线 图 为 例 


用 户 有 时 需要 在 一 个 图 表 中 绘制 两 条 线 表示 不 同 函数 的 图 像 ,如 果 使 用 默认 
的 线条 样式 ,两 个 线条 将 会 相互 产生 干扰 ,无 法 辨别 其 轮廓 。Matplotlib 会 自动 为 
两 个 线条 选择 不 同 的 样式 以 方便 区 分 ,用 户 也 可 以 为 另 一 个 线条 设置 个 性 化 的 样 
式 。 通 过 Code 8-4 为 两 条 交叉 的 正弦 函数 图 像 设 置 了 不 同 的 线条 颜色 和 样式 ,其 
中 一 条 为 黑色 实 线 , 另 一 条 为 浅 蓝 色 虚线 ,如 图 8-5 所 示 。 在 InL3] 的 第 4 行 和 
InL4] 的 第 3 行 中 ,在 新 建 plot 的 同时 指定 了 线条 的 样式 。 请 读者 查阅 Matplotlib 
文档 中 对 plot 的 详细 说 明 ,了解 设置 颜色 的 color 参数 和 设置 线条 形状 的 linestyle 
参数 的 所 有 可 选 值 。 表 8-1 列举 了 常用 的 color 参数 值 和 linestyle 参数 值 供 读者 
参考 。 


Code 8-4 ”图 表 样式 修改 示例 


In [1]: import matplotlib.pyplot as plt 
import numpy as np 
In [2]: fig=plt.figure() 
fig,axe = plt. subplots() 
In [3]: #plotl 
t - np.arange(0.0, 2.0, 0.01) 
s = np.sin(2* np.pi * t) 
axe. plot(t,s,color- 'k',linestyle- '- ') 
In [4]: £plot2 
s = np.sin(2* np.pi * (t * 0.5)) 
axe.plot(t,s,color- 'c',linestyle- '-- ') 


In [5]: plt.show() 
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8.2 图 表 样 式 的 修改 以 及 装饰 项 接口 


Matplotlib 定义 了 详细 的 图 表 装 饰 项 接口 ,能够 对 图 表 的 几乎 每 一 个 细小 的 样 
式 进行 更 改 。 例 如 ,用 户 可 以 自由 变换 函数 图 像 线 条 的 种 类 和 颜色 ,也 可 以 对 坐标 轴 
的 刻度 和 标签 进行 更 改 , 甚 至 可 以 在 图 表 的 任意 位 置 加 上 一 行文 字 注 释 。 本 节 将 选 
择 部 分 样式 和 装饰 项 讲解 其 创建 及 修改 方法 。 


1. 修改 图 表 样 式 一 一 以 函数 曲线 图 为 例 


用 户 有 时 需要 在 一 个 图 表 中 绘制 两 条 线 表示 不 同 函数 的 图 像 ,如 果 使 用 默认 
的 线条 样式 ,两 个 线条 将 会 相互 产生 干扰 ,无 法 辨别 其 轮廓 。Matplotlib 会 自动 为 
两 个 线条 选择 不 同 的 样式 以 方便 区 分 ,用 户 也 可 以 为 另 一 个 线条 设置 个 性 化 的 样 
式 。 通 过 Code 8-4 为 两 条 交叉 的 正弦 函数 图 像 设 置 了 不 同 的 线条 颜色 和 样式 ,其 
中 一 条 为 黑色 实 线 , 另 一 条 为 浅 蓝 色 虚线 ,如 图 8-5 所 示 。 在 InL3] 的 第 4 行 和 
InL4] 的 第 3 行 中 ,在 新 建 plot 的 同时 指定 了 线条 的 样式 。 请 读者 查阅 Matplotlib 
文档 中 对 plot 的 详细 说 明 ,了解 设置 颜色 的 color 参数 和 设置 线条 形状 的 linestyle 
参数 的 所 有 可 选 值 。 表 8-1 列举 了 常用 的 color 参数 值 和 linestyle 参数 值 供 读者 
参考 。 


Code 8-4 ”图 表 样式 修改 示例 


In [1]: import matplotlib.pyplot as plt 
import numpy as np 
In [2]: fig=plt.figure() 
fig,axe = plt. subplots() 
In [3]: #plotl 
t - np.arange(0.0, 2.0, 0.01) 
s = np.sin(2* np.pi * t) 
axe. plot(t,s,color- 'k',linestyle- '- ') 
In [4]: £plot2 
s = np.sin(2* np.pi * (t * 0.5)) 
axe.plot(t,s,color- 'c',linestyle- '-- ') 


In [5]: plt.show() 
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图 8-5 两 条 使 用 不 同样 式 的 交叉 函数 曲线 
表 8-1 常用 的 color 参数 值 和 linestyle 参数 值 
color 参数 值 Gi st linestyle 参数 值 含 X 

r 红色 实 线 
y 黄色 - 虚线 ( 短 画 线 ) 
g 绿色 虚线 ( 短 画 线 和 点 交替 ) 
c "e 虚线 (点 ) 
b 蓝 色 
m 紫红 色 
w 白色 














Matplotlib 提供 了 丰富 的 图 表 样 式 修改 接口 ,可 以 用 于 图 表 的 个 性 化 更 改 。 例 
如 ,对 于 散 点 图 ,可 以 将 标记 点 修改 成 圆 点 、 三 角形 、 星 形 等 多 种 形状 ; 对 于 直方 图 ， 
可 以 变换 条 纹 的 颜色 等 。 官 方 文档 提供 了 所 有 接口 的 详细 信息 ,读者 可 以 在 需要 更 


改 图 表 样式 时 随时 查阅 。 


2. 修改 装饰 项 一 一 以 坐标 轴 的 样式 设置 为 例 


图 表 中 的 装饰 项 包括 坐标 轴 、 网 格 、 图 例 和 边框 等 ,在 不 同 的 图 表 绘 制 任务 中 可 
能 会 对 这 些 装 饰 项 的 样式 有 不 同 的 要 求 。 在 下 面 的 例子 中 将 修改 图 8-5 中 坐标 轴 的 
位 置 .坐标 轴 刻 度 的 密度 和 刻度 的 种 类 ,并 为 图 像 加 上 图 例 , 以 更 加 清晰 地 显示 图 像 
的 关键 信息 。Code 8-5 在 Code 8-4 的 基础 上 进行 了 装饰 项 的 修改 ,生成 的 图 表 如 


图 8-6 所 示 。 
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Code 8-5 ”装饰 项 修改 示例 





In 


In 


In 


In 


In 


In 


In 


[1]: 


[2]: 


[3]: 


[4]: 


[5]: 


[6]: 


[7]: 


[8]: 


import matplotlib. pyplot as plt 


import numpy as np 


fig = plt.figure() 
fig,axe = plt.subplots() 


#plot1 


t = np.arange(0.0, 2.0, 0.01) 


s = np.sin(2* np.pi*t) 


axe.plot(t,s,color- 'k', linestyle = '- ', label = 'linel') 


#plot2 


s = np.sin(2x*np.pix(t+0.5)) 


axe. plot(t,s,color- 'c', linestyle = '-- ', label = 'line2') 


f ticks styles 


axe.set xticks(np.arange(0.0,2.5,0.5)) 
axe.set yticks([ — 1,0,1]) 


axe.minorticks on() 


f axis position 


axe.spines[ right'].set color('none') 


axe. spines[ 'top']. set color('none') 


axe.spines['botton'].set position(('data', 0)) 


axe.spines['left'].set position(('data', 0)) 


# legend 
axe.legend(loc- 'upper right',bbox to anchor- (1.2, 1)) 
plt.show() 

















8-6 ”修改 了 装饰 项 后 的 函数 图 像 


相 比 图 8-5, 将 坐标 轴 的 major tick 数量 减少 ,并 添加 了 minor tick。 同 时 ,为 了 更 
加 清晰 、 直 观 地 了 解 两 个 函数 图 像 交 点 的 位 置 ,将 X 坐标 轴 向 上 平移 至 > 一 0 处 。 除 
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此 之 外 ,还 去 掉 了 Axe 的 边框 。 这 些 装饰 项 的 修改 过 程 相当 简单 ,基本 上 只 需要 调用 
1 一 2 个 函数 就 能 够 完成 修改 。 首 先 ,In[5] 的 第 2.3 行 分 别 设 置 了 X 轴 和 了 轴 上 
major tick 的 数量 ,由 于 主要 关注 交点 处 的 坐标 ,因此 只 在 相应 位 置 设置 了 major 
tick。 为 了 方便 观察 其 他 位 置 的 坐标 ,In[L5] 的 第 4 行为 XY 轴 同时 添加 了 minor 
tick,minor tick 不 显示 具体 的 坐标 值 , 且 比 major tick 更 短 。 

然后 ,InL6] 对 坐标 轴 的 位 置 和 Axe 的 边框 进行 了 修改 。In[6] 的 第 2.3 行 隐藏 
了 右边 框 和 上 边框 ,使 Axe 仅 剩 下 了 下 边框 和 左边 框 , 即 X 轴 和 了 轴 。In[6] 的 
第 4.5 行 指定 了 下 边框 和 左边 框 的 位 置 ,其 中 第 2 个 参数 表示 边框 的 位 置 ,第 1 个 
参数 表示 位 置 的 种 类 。 例 如 ,在 InL6] 的 第 4 行 , 位 置 参 数 的 第 1 个 参数 data 表示 
的 是 X 坐 标 轴 位 置 的 坐标 值 ,因此 坐标 轴 将 被 调整 至 y=0 处 ; 同 理 ,Y 坐标 轴 将 
会 位 于 x=0 的 位 置 。 除 此 之 外 ,用 户 还 可 以 指定 第 1 个 参数 为 axes, 此 时 第 2 个 
参数 将 会 是 一 个 位 于 [0,1] 区 间 内 的 值 , 表 示 坐 标 轴 和 另 一 坐标 轴 的 交点 与 另 一 坐 
标 轴 最 底 端的 距离 在 整个 坐标 轴 上 所 占 的 比例 。 例 如 ,为 Code 8-5 中 下 边框 指定 
第 1 个 参数 为 axes, 第 2 个 参数 为 0.6, 则 X 轴 将 会 位 于 y=0. 2 处 。axe. spines 的 
set_position() 函数 还 提供 了 一 种 简便 方法 指定 两 个 常用 的 坐标 轴 位置 , 即 axe. 
spines[ 'bottom']. set. position 'center') 5j axe. spines[ 'bottom']. set_position( 'zero') 。 
其 中 ,center 参数 等 同 于 ('axe', 0.5), 即 坐标 轴 位 于 整个 Axe 的 中 央 ; zero 参数 等 
同 于 ('data', 0)。 

最 后 ,在 InL7] 处 ,axe. legend() 为 整个 图 像 设置 了 图 例 , 用 于 对 两 个 函数 图 像 添 
加 解释 文本 。loc 和 bbox to anchor 都 是 用 于 确定 图 例 位 置 的 参数 。 为 了 添加 图 例 ， 
在 使 用 axe. plot() 函数 生成 函数 图 像 时 (In[3] 的 第 4 行 与 In[4] 的 第 3 行 ) 额 外 添加 
了 label 属性 ,label 的 值 将 会 作为 图 例 中 两 个 函数 图 像 对 应 的 文字 内 容 。 





3. 注释 的 添加 


仅仅 使 用 图 例 对 函数 进行 注释 往往 并 不 能 满足 特定 的 需求 ,结合 axe. text() 和 
axe. annotate() 函 数 可 以 生成 定制 化 的 注释 。Code 8-6 为 这 两 个 函数 的 使 用 方法 , 展 
示 了 某 一 天 的 天 气 数据 并 绘制 出 相应 的 折线 图 ,同时 为 折线 图 加 入 了 两 个 注解 。 在 
Code 8-6 中 ,In[5] 利 用 axe. annotate() 函 数 生 成 了 一 个 带 箭头 的 注解 ,传人 的 参数 依 
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次 为 注解 文字 、 箭 头 尖 端的 位 置 (xy)、 注 解 文字 位 置 (xytext)、 箭 头 的 样式 参数 
(arrowprops) 以 及 文字 在 水 平 (horizontalalignment) 和 垂直 (verticalalignment) 方 向 
上 对 齐 的 方式 ,其 中 箭头 的 样式 指定 了 箭头 颜色 (facecolor) 和 箭头 与 文字 之 间 的 空 
B shrink) ; InL6] 利 用 axe. text() 函 数 生成 了 一 个 带 背 景 框 的 注解 ,传人 的 参数 分 别 
是 文字 位 置 的 横 坐 标 与 纵 坐 标 、 注 解 文字 以 及 背景 框 的 样式 (bbox) ,其 中 边框 样式 指 
定 了 背景 框 的 背景 颜色 (facecolor)、 透 明度 (alpha) 和 文字 与 背景 框 之 间 的 距离 
(pad) 。 生 成 的 图 表 如 图 8-7 所 示 。 


In 


In 


In 


In 


In 


In 


In 


[1]: 


[2]: 


[3]: 


[4]: 


[5]: 


[6]: 


[7]: 


Code 8-6 ”添加 注释 示例 


import matplotlib.pyplot as plt 

import numpy as np 

fig- plt.figure() 

fig,axe = plt. subplots() 

axe. plot(np. arange(0, 24, 2), [14,9,7,5,12,19,23,26,27,24,21,19], '-o') 

axe.set xticks(np. arange(0, 24,2) ) 

axe.annotate( hottest at 16:00', xy = (16, 27), xytext = (16, 22), 
arrowprops = dict(facecolor- 'black', shrink = 0.2), 
horizontalalignment = 'center', verticalalignment = 'center') 

axe.text(12, 10, 'Date: March 26th, 2018', bbox = ('facecolor': 'cyan', 'alpha': 

0.3, 'pad': 6}) 

plt.show() 
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8-7 为 图 表 加 入 注释 
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8.3 基础 图 表 的 绘制 


8.3.1 


直方 图 


直方 图 (histogram) 是 一 种 直观 描述 数据 集中 每 一 个 区 间 内 的 数据 值 出 现 频 数 
的 统计 图 ,用 户 通 过 直方 图 可 以 大 致 了 解数 据 集 的 分 布 情况 ,并 判断 数据 集中 的 区 
间 。 下 面 通过 例子 绘制 一 张 直方 图 ,在 Code 8-7 中 首先 利用 随机 数 生成 了 一 组 数据 
集 , 接 下 来 定义 直方 图 的 组 数 为 50, 即 将 所 有 数据 分 别 放 入 平均 划分 的 50 个 区 间 内 
并 统计 频数 。 在 第 7 行 调用 Matplotlib 的 axe. hist O 函数 生成 一 个 数据 集 data 的 直 
方 图 。 用 户 还 可 以 为 该 函数 传人 一 些 参数 来 改变 直方 图 的 样式 ,例如 控制 条 纹 宽度 
的 rwidth 参数 、 控 制 条 纹 颜 色 的 color 参数 ,控制 条 纹 对 齐 方向 的 align 参数 等 。 
Code 8-7 的 绘制 结果 如 图 8-8 所 示 o 


In 


In 


In 


In 


[1]: 


[2]: 


[3]: 


[4]: 


Code 8-7 建立 一 个 直方 图 


import matplotlib.pyplot as plt 

import numpy as np 

# random data 

data = np. random. standard_normal(1000) 


bins = 50 


fig, ax = plt. subplots() 
ax. hist(data, bins) 
ax. set_title(r'Histogram') 


plt. show( ) 








histogram 


1 2 


图 8-8 标准 正太 分布 随机 样本 的 直方 图 
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由 于 numpy. random. standard_normal() 函 数 从 标准 正 态 分 布 的 随机 样本 中 任 
意 取 数 ,所 以 直方 图 的 形状 应 该 和 标准 正 态 分 布 的 密度 函数 形状 相近 。 用 户 可 以 在 
直方 图 上 释 加 一 个 标准 正 态 函数 的 密度 曲线 ,表示 理想 状态 下 的 直方 图 形状 。 通 过 
Code 8-8 绘制 了 一 张 直方 图 和 密度 曲线 又 加 组 合 的 图 ,最 终结 果 如 图 8-9 所 示 。 和 
Code 8-7 中 不 同 的 是 ,这 里 为 axe. hist() 函 数 设 置 了 参数 density 王 True, 使 直方 图 的 
条 纹 面 积 和 为 1, 从 而 保证 了 标准 正 态 分 布 密度 函数 曲线 和 直方 图 能 够 在 同一 Axe 
中 清晰 地 显示 出 来 ,否则 直方 图 的 值 区 间 将 会 大 大 高 于 标准 正 态 分 布 密度 函数 曲线 
的 值 区 间 ,后 者 的 图 像 接近 于 一 条 直线 。 


In 


[1]: 


[2]: 


[3]: 
[4]: 


[5]: 


[6]: 


Code 8-8 ”为 直方 图 加 上 标准 正 态 分 布 密度 函数 图 像 


import matplotlib. pyplot as plt 

import numpy as np 

# random data 

data = np. random. standard_normal(1000) 

number_of_bins = 50 

fig, ax = plt. subplots() 

n, bins, patch = ax.hist(data, number_of_bins, density = True) 

# standard normal distribution 

standard data- ((1/(np. sqrt(2 * np. pi) *1)) * 
np. exp( - 0.5 * (1/1 * (bins - 0)) ** 2)) 

ax. plot(bins, standard data,0,'- ') 

plt. show( ) 
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8-9 标准 正 态 分 布 随机 样本 的 直方 图 及 标准 正 态 分 布 密度 函数 图 像 
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8.3.2 BUARI 


散 点 图 (scatter plot) 可 以 将 样本 数据 绘制 在 二 维 平 面 上 ,直观 地 显示 这 些 点 的 
分 布 情况 ,以 便于 判断 两 个 变量 之 间 的 关系 。Code 8-9 可 用 于 绘制 最 简单 的 散 点 图 。 


其 中 ,InL2] 随 机 生成 了 一 组 横 坐 标 值 和 一 组 纵 坐 标 值 ,代表 60 个 坐标 点 ; InL3] 中 调 
用 scatter O 困 数 并 传人 坐标 点 ,生成 一 个 散 点 图 。 绘 制 的 散 点 图 效果 如 图 8-10 
所 示 。 

Code 8-9” 散 点 图 示例 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 
In [2]: #random data 
N = 60 
np. randon. seed(100) 
x = np. random. rand(N) 
y = np. random. rand(N) 
In [3]: fig,axe= plt.subplots() 
axe. scatter(x, y) 
In [4]: plt. show() 
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图 8-10 一 组 随机 数 的 散 点 图 


用 户 可 以 为 散 点 图 中 的 每 个 marker 设置 不 同 的 样式 ,例如 为 每 一 个 marker 的 
面积 设置 一 个 不 同 的 值 , 其 中 面积 越 大 的 颜色 越 深 ,同时 为 了 防止 marker 之 间 存 在 
谈 挡 的 问题 ,可 以 设置 marker 的 透明 度 ,详细 代码 如 Code 8-10 所 示 。 在 InL4] 中 , 通 
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过 调用 scatter O KOHE A marker 的 面积 、 颜 色 和 透明 度 参 数 可 以 获得 如 图 8-11 
所 示 的 显示 效果 。 


Code 8-10 更改 marker 样式 的 散 点 图 示例 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 
In [2]: #random data 
N = 60 
np. random. seed(100) 
x = np.random.rand(N) 
y = np.random.rand(N) 
In [3]: s = np.pi* (10 * np. randon. rand(N)) ** 2 
c7 -s 
opacity - 0.7 
In [4]: fig,axe- plt.subplots() 
axe.scatter(x, y, s, c, alpha = opacity) 
In [5]: plt.show() 
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图 8-11 更 改 marker 样式 后 的 散 点 图 


8.3.3 Qld 


饼 图 (pie chart) 可 以 直观 地 显示 某 一 类 数据 在 全 部 样本 数据 中 的 百分比 ,通过 将 
某 一 类 数据 出 现 的 频数 转换 为 百分比 ,可 以 清晰 地 体现 出 该 类 数据 在 全 部 样本 数据 
中 的 重要 程度 .影响 力 等 指标 。 假 设 在 某 公 司 对 员工 上 班 选择 的 交通 方式 的 一 次 调 
查 统计 中 得 到 了 表 8-2 中 的 结果 ,用 户 可 以 用 饼 图 来 显示 选择 6 种 交通 方式 的 人 数 
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占 比 。 


表 8-2 一 次 调查 中 某 公司 员工 上 班 交通 方式 的 统计 结果 























交通 方式 人 数 所 占 比例 
出 租车 100 10% 
地 铁 300 30% 
步行 50 5% 
公交 车 250 25% 
自行 车 50 5% 
驾车 250 2594 











代码 Code 8-11 根据 表 8-12 所 示 中 的 数据 绘制 了 相应 的 饼 图 ,如 图 8-12 所 示 。 
在 InL4] 中 通过 调用 axe. pie() 函 数 传人 相应 的 数据 和 样式 参数 以 完成 图 形 的 绘制 ， 
其 中 ,labels 参数 代表 饼 图 中 分 区 所 代表 的 含义 ,sizes 参数 代表 每 个 分 区 各 自 的 面积 
占 比 ,explode 参数 代表 每 个 分 区 相对 中 心 的 偏 移 值 。 这 3 个 参数 均 为 数组 类 型 , 数 
组 中 的 每 一 个 元 素 一 一 对 应 。 除 此 之 外 ,autopct 参数 规定 了 百分比 数值 的 显示 格式 
(例如 小 数 的 位 数 ) ,shadow 参数 表示 饼 图 是 否 带 有 阴影 ,startangle 参数 用 于 旋转 饼 
图 以 调节 分 区 的 摆 放 位 置 。 


Code 8-11 ARB 


In [1]: import matplotlib.pyplot as plt 
import numpy as np 
In [2]: fig, axe = plt. subplots() 
In [3]: labels = 'Taxi', 'Metro', 'Walk', 'Bus', 'Bicycle', 'Drive' 
sizes - [10, 30, 5, 25, 5, 25] 
explode = (0, 0.1, 0, 0, 0, 0) 
In [4]: axe.pie(sizes, explode = explode, labels = labels, autopct ='%1.1f% %', 
Shadow = True, startangle = 90) 
In [5]: axe.axis('equal') 
axe.set title('pie chart"); 
In [6]: plt.show() 





8.3.4 柱状 图 


柱状 图 (bar chart) 可 以 直观 地 反映 不 同类 别 数据 之 间 分 布 情况 的 数量 差异 。 这 
里 对 上 班 交 通 方式 统计 例子 做 进一步 扩展 ,讲解 柱状 图 的 绘制 方法 。 假 设 将 男性 和 
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图 8-12 ”上班 出 行 方式 统计 饼 图 


女性 的 上 班 出 行 方式 分 别 统计 ,可 得 如 表 8-3 所 示 的 结果 ,利用 柱状 图 可 以 对 比 不 同 























性 别 的 员工 所 选择 的 交通 方式 。 
表 8-3 分别 对 男性 和 女性 的 上 班 出 行 方式 进行 统计 的 结果 
人 数 
交通 方式 

男性 女性 
出 租车 40 60 
地 铁 120 180 
步行 20 30 
公交 车 100 150 
自行 车 30 20 
驾车 200 50 








Code 8-12 生成 的 如 图 8-13 所 示 的 柱状 图 。 首 先 建立 了 两 组 数据 data m 和 data. f. 
分 别 对 应 选择 各 出 行 方 式 的 男性 人 数 和 女性 人 数 ,然后 通过 index 变量 指定 了 条 纹 
( 即 bar) 显 示 的 位 置 , 即 分 别 位 于 横 坐 标 轴 的 1,2,3,4,5,6 处 , 接 下 来 指定 条 纹 宽度 
为 0.4。 在 InL5] 中 分 别 创建 了 男性 和 女性 选择 不 同 出 行 方式 人 数 的 柱状 图 ,通过 将 
后 者 的 坐标 轴 位 置 向 右 平移 0.4( 即 一 个 条 纹 的 宽度 ) 可 以 防止 其 覆盖 前 者 。In[L6] 的 
第 1.2 行 设置 了 横 坐 标的 样式 ,使 其 显示 6 个 出 行 方式 类 别 , 第 3 行 则 为 柱状 图 添加 


了 图 例 。 


Code 8-12 ”柱状 图 示例 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 
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In [2]: fig,axe- plt.subplots() 
In [3]: data m- (40, 60, 120, 180, 20, 200) 
data f = (30, 100, 150, 30, 20, 50) 
In [4]: index - np.arange(6) 
width- 0.4 
In [5]: axe.bar(index, data m, width, color= 'c', label= 'men') 
axe. bar( index + width, data f, width, color = 'b', label = 'women') 
In [6]: axe.set_xticks(index + bar_width / 2) 
axe. set_xticklabels( ( 'Taxi', 'Metro', Walk', 'Bus', 'Bicycle', Driving')) 
axe. legend() 
In [7]: pilt.show() 











Taxi Metro Walk Bus Bicycle Driving 


图 8-13 上 班 出 行 方式 统计 柱状 图 


用 户 也 可 以 将 两 个 柱状 图 释 加 显示 ,通过 Code 8-13 可 以 将 各 出 行 方式 的 女性 选 
择 人 数 秋 加 在 男性 人 数 的 柱状 图 之 上 ,获得 如 图 8-14 所 示 的 显示 效果 。 操 作 的 关键 
是 在 生成 第 2 个 柱状 图 时 传人 的 参数 bottom 二 data_m。 


Code 8-13 ”柱状 图 又 加 效果 示例 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 
In [2]: fig,axe- plt.subplots() 
In [3]: data m- (40, 60, 120, 180, 20, 200) 
data f = (30, 100, 150, 30, 20, 50) 
In [4]: index - np.arange(6) 
width- 0.4 
In [5]: axe.bar(index, data m, width, color = 'c', label = 'men') 
axe.bar(index, data f, width, color = 'b', bottom- data m, label = 'women') 
In [6]: axe.set xticks(index + bar width / 2) 
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axe.set xticklabels(( Taxi', Metro', Walk', 'Bus', 'Bicycle', Driving!)) 
axe. legend() 
In [7]: plt.show() 
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图 8-14 EIEII RAHE A E R 


用 户 可 以 稍微 改变 柱状 图 的 样式 ,获得 一 些 与 众 不 同 的 效果 。 例 如 在 Code 8-12 
中 将 第 2 个 柱状 图 错开 的 距离 减 小 ,可 以 产生 部 分 重 和 至 的 效果 ,也 可 以 通过 Code 8-14 
中 的 方法 获得 这 一 效果 ,最 终生 成 的 柱状 图 如 图 8-15 所 示 。 在 生成 两 个 柱状 图 时 ， 
如 果 分 别 指定 条 纹 的 对 齐 方式 为 中 心 对 齐 和 边缘 对 齐 ,也 可 以 造成 半 错 开 SERRE RR 
效果 。 


Code 8-14 ”柱状 图 半 重 到 效果 示例 


In [1]: import matplotlib.pyplot as plt 
import numpy as np 

In [2]: fig,axe- plt.subplots() 

In [3]: data m- (40, 60, 120, 180, 20, 200) 
data f = (30, 100, 150, 30, 20, 50) 

In [4]: index = np.arange(6) 
width- 0.4 

In [5]: axe.bar(index, data m, width, color = 'c',align- 'center', label = 'men') 
axe.bar(index, data f, width, color = 'b',align- 'edge', label = 'women') 

In [6]: axe.set xticks(index + bar width / 2) 
axe.set xticklabels(('Taxi', 'Metro', 'Walk', 'Bus', 'Bicycle', Driving')) 
axe. legend() 

In [7]: plt.show() 
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mm women 





Taxi Metro Walk Bus Bicycle Driving 
图 8-15 上 班 出 行 方 式 统计 柱状 图 半 重 全 效果 
用 户 可 以 设置 颜色 的 透明 度 , 使 部 分 又 加 效果 更 加 清晰 。 例 如 ,在 Code 8-14 的 


In[5j 中 ,车 为 axe. bar() 函 数 传人 参数 alpha 二 0.4, 可 以 获得 如 图 8-16 所 示 的 半 透 明 
效果 。 











Taxi Metro Walk Bus Bicycle Driving 


图 8-16 上 班 出 行 方 式 统计 柱状 图 半 重 倒 、 半 透明 效果 


用 户 还 可 以 调用 另 一 个 柱状 图 生成 函数 axe. barh() 使 柱状 图 水 平 显 示 , 详 见 
图 8-17。 具 体 代 码 见 Code 8-15 所 示 。 


Code 8-15 ”柱状 图 水 平 显示 效果 示例 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 

In [2]: fig,axe- plt.subplots() 

In [3]: data m- (40, 60, 120, 180, 20, 200) 
data f = (30, 100, 150, 30, 20, 50) 
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In [4]: index = np.arange(6) 
width= 0.4 
opacity - 0.4 
In [5]: axe.barh(index, data m, width, color= 'c',align- 'center' alpha = opacity, label = ' 
men') 
axe.barh(index, data f, width, color = 'b',align- 'edge',alpha = opacity, label = 
'women') 
In [6]: axe.set xticks(index + bar width / 2) 
axe.set xticklabels(( Taxi', 'Metro', 'Walk', 'Bus', 'Bicycle', 'Driving')) 
axe. legend() 
In [7]: plt.show() 
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图 8-17 ”上班 出 行 方式 统计 水 平 柱状 图 


8.3.5 折线 图 


折线 图 的 绘制 和 函数 图 像 绘制 的 方法 基本 一 致 ,通过 将 坐标 点 传人 axe. plot() 
函数 可 以 得 到 相应 的 折线 图 。Code 8-16 绘制 了 两 组 数据 的 折线 图 ,如 图 8-18 所 示 。 
为 了 方便 区 分 ,两 条 折线 使 用 了 不 同 的 颜色 与 线条 样式 。 除 此 之 外 ,用 户 还 可 以 更 改 
标记 点 marker 的 样式 ,具体 过 程 不 再 袭 述 。 


Code 8-16 ”折线 图 示例 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 

In [2]: fig,axe- plt.subplots() 

In [3]: np.random. seed(100) 
x-np.arange(0, 10, 1) 
y1 np. random. rand(10) 


(126) Python 数据 分 析 实 战 | 


y2 = np. random. rand(10) 
In [4]: axe.plot(x, yl, '- o', color= 'c') 
axe.plot(x, y2, '-- o', color= 'b') 
In [5]: plt. show() 




















图 8-18 一 组 随机 数 的 折线 图 


8.3.6 表格 


通过 Matplotlib 可 以 将 图 和 表 结 合 显示 .一 方面 ,柱状 图 、 折 线 图 等 可 以 直观 地 
展示 数据 的 分 布 情况 ; 另 一 方面 ,用 户 可 以 查阅 表格 获得 详细 、 精 准 的 数据 值 。 这 里 
再 次 使 用 上 班 交通 方式 统计 的 例子 ,将 柱状 图 和 数据 表格 同时 显示 (如 图 8-19 所 
示 ) ,具体 实现 方法 见 Code 8-17。 


Code 8-17 表格 示例 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 
In [2]: fig,axe=plt.subplots() 
In [3]: data m= (40, 60, 120, 180, 20, 200) 
data f = (30, 100, 150, 30, 20, 50) 
In [4]: index - np.arange(6) 
width- 0.4 
In [5]: #bar charts 
axe.bar(index, data m, width, color- 'c', label- 'men') 
axe.bar(index, data f, width, color- 'b', bottom- data m, label- 'women') 
axe.set xticks([]) 
axe. legend() 
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In [6]: £table 
data = (data m,data f) 
rows = ('male', 'female') 
columns = ( 'Taxi', Metro', Walk', 'Bus', Bicycle', 'Driving') 
axe.table(cellText - data, rowLabels - rows, colLabels - columns) 
In [7]: plt.show() 
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图 8-19 上 班 出 行 方式 统计 柱状 图 与 数据 表 


在 调用 axe. tableCO 函数 时 需要 传人 一 个 二 维 数组 作为 表格 数据 ,还 可 以 通过 
rowLabels 和 colLabels 参数 设置 行 标签 和 列 标签 。 另 外 ,通过 rowLoc, colLoc 和 
cellLoc 可 以 分 别 设置 行 标签 、 列 标签 和 单元 格 的 对 齐 方向 ; loc 参数 代表 了 表格 的 摆 
放 位 置 ,例如 设置 loc= "bottom' 时 表格 会 显示 在 柱状 图 底部 ,设置 loc= 'top' 时 表格 会 
显示 在 柱状 图 顶部 。 


8.3.7 不 同 坐标 系 下 的 图 像 


除了 常用 的 平面 直角 坐标 系 以 外 ,Matplotlib 还 提供 了 在 极 坐标 系 和 对 数 坐 标 
系 上 进行 绘图 的 函数 ,在 此 以 极 坐标 系 为 例 讲解 特殊 坐标 系 下 的 绘图 方法 。 在 极 坐 
标 系 中 可 以 绘制 许多 漂亮 的 函数 图 像 ,例如 等 距 螺旋 线 、 心 形 线 、 双 纽 线 等 。 在 下 面 
的 例子 中 将 在 极 坐标 系 中 绘制 一 个 双 扭 线 。 双 纽 线 的 极 坐 标 方程 如 下 : 
p. = ozeos20 
通过 代码 Code 8-18 可 以 获得 图 8-20 中 的 双 纽 线 函 数 图 像 。 从 InL4] 的 第 1 行 
可 以 看 出 , 相 比 平面 直角 坐标 系 中 的 函数 图 像 绘 制 , 在 极 坐标 系 中 绘制 函数 图 像 需 要 
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在 建立 Axe 时 指定 投影 (projection) 参 数 为 极 坐标 (polar) 。 除 此 之 外 ,用 户 也 可 以 通 
过 调用 matplotlib. pyplot. polar O 函数 绘制 极 坐 标 系 中 的 图 像 。 


Code 8-18 ”绘制 双 纽 线 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 
In [2]: fig,axe= plt.subplots() 
In [3]: theta list = np.arange(0, 2 * np. pi, 0.01) 
r = [2*np.cos(2* theta) for theta in theta list] 
In [4]: axe = plt.subplot(projection- 'polar') 
axe.plot(theta list, r) 
In [5]: axe.set rticks([]) 
In [6]: plt.show() 











8-20 在 极 坐标 系 中 绘制 双 纽 线 


8.4  matplot3D 


除了 可 以 绘制 大 量 二 维 图 表 以 外 .Matplotlib 还 具有 绘制 三 维 图 形 的 能 力 。 用 
于 绘制 matplot3D 图 表 的 Python 包 为 mpl_toolkits. mplot3d, 使 用 其 中 的 Axes3D 类 
可 以 生成 多 种 三 维 图 表 , 包 括 柱 状 图 、 散 点 图 和 曲面 图 像 等 。 例 如 ,Code 8-19 利用 
Axes3D 类 绘制 了 一 个 简单 的 三 维 散 点 图 ,绘制 效果 如 图 8-21 所 示 。 
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Code 8-19 三维 散 点 图 示例 (使 用 Axes3D 类 实现 ) 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 
from mpl toolkits.mplot3d import Axes3D 
In [2]: fig - plt.figure() 
axe = Axes3D(fig) 
In [3]: # random data 
N = 60 
np. random. seed(100) 
x = np. random. rand(N) 
y = np. random. rand(N) 
z= np. random. rand(N) 
In [4]: axe.scatter(x, y, z) 
In [5]: plt. show() 





图 8-21 三 维 散 点 图 示例 


除了 可 以 使 用 Axes3D. scatter() 方 法 生成 散 点 图 以 外 ,还 可 以 使 用 Axes3D. 
scatter3D() 方 法 生成 ,两 者 在 使 用 上 是 完全 相同 的 ,所 绘制 图 形 的 效果 也 相同 ,但 在 
Axes3D 提供 的 方法 中 并 非 所 有 图 表 绘 制 都 像 散 点 图 那样 拥有 两 个 效果 一 样 的 方法 。 
例如 ,绘制 柱状 图 的 Axes3D. bar() 和 Axes3D. bar3D() 效 果 就 不 一 致 ,前 者 实际 上 绘 
制 的 是 三 维 空间 中 的 二 维 柱状 图 . 仅 传人 了 柱状 图 每 个 条 纹 的 位 置 和 高 度 ,但 方法 中 
的 zdir 参数 可 用 于 指定 二 维 柱状 图 平面 的 方向 ,例如 指定 zdir=='z', 即 表示 二 维 柱状 
图 所 在 的 平面 和 2Z 轴 垂直 ; 而 后 者 是 真正 的 三 维 柱状 图 ,需要 传人 每 个 条 纹 的 X、Y、 
Z 轴 锚 点 坐标 ,以 定位 条 纹 在 三 维 坐标 系 空间 中 的 位 置 。 

除 此 之 外 ,用 户 也 可 以 使 用 pyplot 进行 三 维 图 表 的 绘制 ,但 需要 在 创建 Axe 时 
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设置 projection 参数 为 '3d'。Code 8-20 绘制 了 和 Code 8-19 效果 相同 的 散 点 图 ,但 使 
用 了 pyplot 的 三 维 图 表 绘 制 方法 ,实际 绘制 效果 和 图 8-21 相同 。 


Code 8-20 三维 散 点 图 示例 (使 用 pyplot 实现 ) 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 
In [2]: fig = plt.figure() 
axe = plt.subplot(projection- '3d') 
In [3]: # random data 
N = 60 
np. random. seed(100) 
x = np. random. rand(N) 
y = np. random. rand(N) 
z = np. random. rand(N) 
In [4]: axe.scatter(x,y,z) 
In [5]: plt. show() 


对 于 更 多 的 Matplotlib3D 图 表 绘 制 方法 详 见 官方 文档 ,在 此 不 再 袭 述 。 


8.5 Matplotlib 与 Jupyter 结合 


将 Matplotlib 和 Jupyter 结合 使 用 ,能 够 简便 ,快速 地 构建 图 文 并 茂 的 文档 ,得 
益 于 丰富 的 图 表 API IF LaTeX 语法 的 数学 公式 生成 和 基于 Markdown 语言 的 
文档 生成 ,Matplotlib 可 用 于 编写 绝 大 部 分 的 文档 甚至 是 格式 要 求 更 加 严格 、 精 准 
的 论文 。 

这 里 以 介绍 双 纽 线 绘制 的 文档 为 例 ,展示 如 何在 Jupyter 中 编写 内 容 丰 富 的 文 
档 。 首 先 新 建 一 个 Markdown Cell, 这 类 Cell 接受 一 段 Markdown 代码 作为 输入 , 运 
行 后 可 以 生成 相应 的 HTML 文档 。 在 本 例 中 文档 将 会 被 分 为 两 部 分 ,一 部 分 为 双 纽 
线 的 介绍 和 代码 实现 过 程 介绍 ,这 部 分 内 容 会 被 放 到 一 个 Markdown Cell 中 ; 另 一 
部 分 为 使 用 Matplotlib 绘制 双 纽 线 的 完整 代码 以 及 代码 运行 得 到 的 函数 图 像 ,这 部 
分 内 容 会 被 放 到 一 个 Code Cell 中 。 

Code 8-21 为 双 纽 线 的 介绍 和 代码 实现 过 程 介绍 。 
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Code 8-21 双 纽 线 的 介绍 和 代码 实现 过 程 介绍 (Markdown Cell) 





# ” 双 纽 线 的 绘制 

参考 [百度 百科 : 双 纽 线 ](https://baike. baidu. com/item/ 双 纽 线 /3726722?fr = aladdin" 百 度 百 
科 双 纽 线 词 条 ") 

#H MAREA? 

* ” 双 纽 线 , 也 称 伯 努 利 双 纽 线 

* ” 设 定 线段 MB 长度 为 2a, 若 动 点 六 满足 MA * MB =a^2, 那 么 X 的 轨迹 称 为 双 纽 线 

* ” 双 纽 线 的 极 坐标 方程 为 

$ \rho = a^2\cos2\theta $ 

## 利用 Matplotlib 绘 制 双 纽 线 

相 比 平面 直角 坐标 系 中 的 函数 图 像 绘 制 ,在 极 坐 标 系 中 绘制 函数 图 像 需 要 在 建立 Axe 时 指定 投影 
(projection) 参 数 为 极 坐标 (polar) .首先 根据 双 纽 线 的 极 坐 标 方程 生成 了 两 组 数据 

"Python 

theta list = np.arange(0, 2 * np.pi, 0.01) 

r = [2*np.cos(2* theta) for theta in theta list] 


然后 建立 一 个 投影 为 极 坐标 的 Axe 
'"'Python 
axe = plt. subplot(projection= 'polar') 


接 下 来 ,使 用 axe. plot() 函数 生 成 函数 曲线 ,为 了 使 图 形 更 加 美观 ,删除 了 r 轴 上 的 所 有 tick 


"Python 
axe.plot(theta list, r) 
axe.set rticks([]) 


最 后 ,使 用 pyplot. show() 函数 展示 图 形 


"Python 
plt. show() 


完整 代码 和 运行 结果 如 下 : 





Code 8-21 主要 用 了 Markdown 语言 ,包含 标题 .文字 段落 、 列 表 、 链 接 、 代 码 段 等 
多 种 Markdown 元 素 。 双 纽 线 的 公式 使 用 LaTeX 编写 。 对 于 Markdown 和 LaTeX 
语法 在 此 不 再 袭 述 , 感 兴趣 的 读者 可 以 查阅 相关 资料 深入 学 习 。 

Code 8-22 为 绘制 双 纽 线 的 完整 代码 。 


Code 8-22 ”绘制 双 纽 线 的 完整 代码 (Code Cell) 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 


theta list = np.arange(0, 2 * np.pi, 0.01) 
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r = [2* np.cos(2 * theta) for theta in theta list] 
axe = plt.subplot(projection = 'polar') 
axe.plot(theta list, r) 

axe.set rticks([]) 

plt.show() 





执行 Code 8-21 和 Code 8-22 后 即 可 生成 完整 的 文档 ,生成 的 文档 如 图 8-22 
所 示 。 


双 纽 线 的 绘制 

参考 百度 百科 : xd 

双 纽 线 是 什么 ? 

* pen, tenunan 

* VWGEMIRABKIN2a, EXURMNEMA'MB«a^2, B/AMÉSIUBEUSRURH, 
。 双 纪 贱 的 极 涯 标 方程 为 p= ai cos26 

利用 Matplotlib 绘 制 双 纽 线 


相 比 平面 直角 华 标 系 中 的 函数 肝 像 绘制， 在 极 华 标 系 中 绘制 函 数 肝 像 需要 在 建立 Axe 时 指定 投影 (projection) 参数 为 级 从 
标 (poiar) 。 首 先 根据 双 绍 线 的 航 坐 标 方程 生成 了 两 组 数据 


theta list = np.arange(0, 2*np.pi, 0.01) 
r= [I*np.cos(2^theta) for theta in theta list] 


然后 建立 一 个 投影 为 极 坐 标的 Axe 
axe = plt.subplot(projection*'polar') 
接 下 来 ， 使 用 axe plot RR ult, 29 7 (MBURODUUR, MTAKA Ak 


axe.plot(theta list, r) 
axo.sot rticks([]) 


最 后 ， 使 用 pyplot show B BUR IBRE 
plt.show() 
完整 代码 和 运行 结果 如 下 : 





In [1]: import matplotlib.pyplot as plt 
import numpy as np 
arange(0, 2*np.pi, 0.01 






'ubplot(projectione'polar') 
axe.plot(theta list, r) 

axe.set. rticks([]) 

plt.show() 











270* 


图 8-22 利用 Markdown 和 Matplotlib 生成 的 文档 
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在 Jupyter notebook 的 界面 上 选择 File—>Download as 命令 可 以 将 文档 转换 成 
HTML, Markdown, LaTeX 和 PDF 等 多 种 格式 ,但 转换 成 LaTeX 和 PDF 格式 需要 
额外 安装 万 能 文档 转换 器 Pandoc。 若 文档 中 包含 中 文 ,利用 上 述 方式 转换 出 的 PDF 
文档 中 的 中 文 将 会 显示 不 正常 ,一 种 可 以 参考 的 解决 方案 是 首先 输出 LaTeX 格式 的 
文档 ,在 其 中 加 上 对 中 文字 体 的 描述 ,然后 再 将 其 转换 为 PDF 文档 ,具体 方法 可 在 网 
上 查阅 相关 资料 ,这 里 不 再 袭 述 。 
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实例 : 科比 职业 生涯 进 球 分 析 





本 例 对 科比 职业 生涯 的 进 球 进 行 简单 分 析 , 希 望 得 到 科比 本 人 的 进 球 习惯 以 及 
得 分 方式 .出手 时 机 出手 位 置 . 主 /客场 等 因素 对 其 进 球 成 功率 的 影响 。 


9.1 预 处 理 


科比 的 职业 生涯 进 球 数 据 由 kaggle(http://www. kaggle. com) 提 供 , 包 括 25 个 
字段 ,各 字段 的 含义 如 表 9-1 所 示 。 























表 9-1 字段 含义 
T ER Gi Xx 
action type 动作 类 型 ( 细 分 类 ) 
combined shot type 动作 类 型 ( 粗 分 类 ) 
game event, id 事件 id 
game id 比赛 id 
lat 纬度 
loc_x 球场 上 位 置 的 横 坐标 
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续 表 
ES & Gi $4 
loc y 球场 上 位 置 的 纵 坐 标 
lon 经 度 
minutes_remaining 本 节 剩余 时 间 ( 分 钟 部 分 ) 
period 节 
playoffs 是 否 为 季 后 赛 
season 赛季 
seconds_remaining 本 节 剩 余 时 间 ( 秒 钟 部 分 ) 
shot_distance 投篮 距离 
shot made flag 是 否 进 球 
shot_type 2 分 球 /3 分 球 
shot zone area 投篮 区 域 ( 左 、 中 、 右 ) 
shot_zone_basic 投篮 区 域 (场地 位 置 ,例如 禁区 .中 场 等 ) 
shot_zone_range 投篮 距离 范围 
team_id 球 队 id 
team_name 队 名 
game_date 比赛 日 期 
matchup 比赛 双方 队 名 (用 @ 分 隔 代 表 客 场 ,用 vs 分 隔 代 表 主 场 ) 
opponent 对 手 队 名 
shot_id 进 球 id 


在 了 解 各 个 字段 的 含义 之 后 可 以 先 对 数据 进行 一 些 处 理 , 比 如 增加 、 删 除 或 改写 
一 些 字段 ,去 除 一 些 不 完整 的 数据 。 

“事件 id" 是 每 场 比赛 的 各 个 事件 (投篮 .犯规 . 进 球 等 ) 按 顺序 所 排 的 序号 ,对 最 
后 结果 没有 影响 ,可 以 直接 去 掉 此 字段 。“ 经 /纬度 "与 所 分 析 内 容 的 相关 性 不 大 ,也 
可 去 掉 。“ 队 名 ”与 “对 手 队 名 ”两 个 字段 的 信息 在 “比赛 双方 队 名 ”中 已 经 有 体现 ,而 
且 科 比 在 职业 生涯 中 未 曾 转 会 ,始终 在 湖人 队 效 力 ,“ 球 队 id” 和 “ 队 名 ”两 个 字段 均 无 
必要 存在 ,因此 可 以 将 对手 队 名 ”字段 保留 ,删除 “ 队 名 ”“ 球 队 id” 和 “比赛 双方 队 
名 ”, 但 是 保留 其 中 的 主 /客场 信息 ,并 用 一 个 新 的 字段 “ 主 /客场 (home) ”记录 。 还 应 
该 注意 到 ,在 原始 数据 中 时 间 是 以 “本 节 剩 余 时 间 ” 的 形式 由 两 个 字段 分 别 记录 “分 ” 
和 “ 秒 ” 两 部 分 ,相对 而 言 不 太 方 便 . 可 以 考虑 增加 几 个 与 时 间 相关 的 字段 ,例如 “本 节 
剩余 时 间 ( 秒 )”“ 本 节 已 过 时 间 ( 秒 )” 以 及 “比赛 已 过 时 间 ( 秒 )”。 

另外 ,kaggle 在 提供 数据 时 随机 删 掉 了 一 些 数据 的 shot made flag 字段 ,在 进行 
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数据 分 析 时 需要 先 将 这 些 数据 去 除 。 
以 上 处 理 的 具体 操作 可 以 参考 Code 9-1。 


Code9-1 增 / 删 字段 





In [3]: 


In [4]: 


import numpy as np 

import pandas as pd 

raw data = pd.read csv( path/to/data') 

Kobe = raw data.drop(['game event id','team id', 'team name', 'lon', 

'lat', 'matchup', 'second remaining', 

"minute remaining'],axis - 1) 

Kobe['home'] = raw data.matchup.apply(lambda x:0 if x[4]-- (9' else 1) 
Kobe[ 'secondsFromPeriodEnd'] = 

60 * raw data[ minutes remaining'] + raw data['seconds remaining'] 

Kobe[ 'secondsFromPeriodStart'] = 

60 * (11- raw data[ minutes remaining']) + (60 - raw data[ seconds remaining']) 
Kobe[ 'secondsFromGameStart'] = 

(raw data['period']«- 4). astype(int) * (raw data[ period']- 1) *12* 60 + 

(raw data['period']» 4).astype(int) * ((raw data['period']- 4) *5*60*3* 

12 * 60) + Kobe[ 'secondsFronPeriodStart'] 

Kobe. dropna( inplace = True) 


此 外 ,game_date 字段 仍然 使 用 了 字符 串 类 型 ,可 以 改 为 datetime 类 型 以 方便 使 
用 ,方法 如 Code 9-2 所 示 。 


In [5]: 


Out [5]: 


Code 9-2 ”修改 game date 字段 的 数据 类 型 


Kobe['game date'] = Kobe.game date.apply(lambda x:pd.to datetime(x)) 
Kobe.game date 

2000-10-31 

2000-10-31 

2000-10-31 


0 
i 
2 
3 2000 - 10-31 
4 2000 - 10-31 
5 


2000 - 10 - 31 


30692 2000- 06- 19 
30693 2000- 06- 19 
30694 2000- 06- 19 
30695 2000- 06- 19 
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30696 2000- 06- 19 
Name: game date, dtype: datetime64[ns] 





处 理 完 毕 后 可 选取 几 行 数据 观察 一 下 数据 是 否 正 确 , 如 Code 9-3 所 示 。 


Code 9-3 ”检查 数据 





In [6]: Kobe.loc[ :5,['home'，period'，'minutes_remaining'，'seconds_remaining'， 
'secondsFromGameStart']] 
Out [6]: home period minutes remaining seconds remaining ^ secondsFromGameStart 


0 0 1 10 27 93 

1 0 1 10 22 98 

2 0 1 7 45 255 
3 0 1 6 52 308 
4 0 2 6 19 1061 
5 0 3 9 32 1588 


In [7]: Kobe. info() 
Out [7]: «class 'pandas. core. frame. DataFrame ^ 
Int64Index: 25697 entries, 1 to 30696 


Data columns (total 23 columns): 


action type 25697 non- null object 
combined shot type 25697 non- null object 
game id 25697 non-null int64 
loc x 25697 non- null int64 
loc y 25697 non-null int64 
period 25697 non-null int64 
playoffs 25697 non-null int64 
season 25697 non-null object 
shot_distance 25697 non-null int64 
shot_made_flag 25697 non-null float64 
shot_type 25697 non-null object 
shot_zone_area 25697 non-null object 
shot_zone_basic 25697 non-null object 
shot_zone_range 25697 non-null object 
game_date 25697 non-null object 
opponent 25697 non-null object 
shot_id 25697 non-null int64 
home 25697 non-null int64 
secondsFromPeriodEnd 25697 non-null int64 


secondsFromPeriodStart 25697 non-null int64 
secondsFromGameStart 25697 non-null int64 
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dtypes: float64(1), int64(13), object(9) 
memory usage: 4.7 + MB 





确认 数据 正常 后 就 可 以 开始 后 续 的 工作 了 。 


9.2 分 析 科 比 的 命中 率 


shot made flag 字段 标记 了 各 个 进 球 成 功 与 否 ,“1” 为 命中 ,“0” 为 未 命中 。 首 先 
计算 一 下 科比 在 整个 职业 生涯 中 投篮 的 总 命中 率 以 及 每 场 比赛 的 命中 率 , 如 Code 9-4 
所 示 。 


Code 9-4 科比 投篮 的 总 命中 率 以 及 每 场 比赛 的 命中 率 


In [8]: Kobe['shot made flag'].mean() 
Out [8]: 20.44616103047048294 
In [9]: Kobe.pivot table(index- 'game_id', values = ['shot made flag'], 


aggfunc = np. nean) 


Out [9]: Shot made flag 
game id 
20000012 0.444444 
20000019 0.368421 
20000047 0.583333 
20000049 0.454545 
20000058 0.461538 
20000068 0.461538 
49900075 0.444444 
49900083 0.500000 
49900084 0.333333 
49900086 0.578947 
49900087 0.250000 
49900088 0.260870 


[1559 rows X 1 columns] 





为 了 方便 观察 ,可 以 通过 Code 9-5 将 每 场 比赛 的 命中 率 可 视 化 ,其 结果 如 图 9-1 


Bim. 




















| #9% s purses (133) 
o 


Code 9-5 每 场 比赛 的 命中 率 可 视 化 





In [10]: import matplotlib. pyplot as plt 
tmp table - Kobe.pivot table(index- 'game id', 
values = ['shot made flag'],aggfunc = np. mean) 
In [11]: tmp.index - range(len(tmp)) 
In [12]: pit.plot(tmp) 
Out [12]: [«matplotlib.lines.Line2D at 0xl0def90f0 >] 

















0 200 400 600 800 1000 1200 1400 1600 


图 9-1 科比 每 场 比赛 的 命中 率 


从 该 图 可 以 看 出 ,科比 的 命中 率 总 体 来 讲 在 0. 3 一 0. 6 波动 ,从 其 整个 职业 生涯 
来 讲 , 能 看 出 在 中 间 一 个 时 期 内 命中 率 存在 一 定 程度 的 下 降 , 但 规律 性 不 是 很 强 。 

由 于 科比 职业 生涯 整体 规律 性 不 强 ,我 们 转 而 针对 每 一 场 比赛 进行 细节 上 的 分 
析 。 在 球场 上 影响 命中 率 的 因素 很 多 ,常见 因素 有 出 手 位 置 .时 间 、 出 手 次 数 、 进 球 方 
式 、 主 /客场 ,对 手 等 。 首 先 分 析 一 下 比赛 剩余 时 间 对 科比 命中 率 的 影响 。 

在 预 处 理 阶 段 增 加 了 3 个 字段 , 即 secondsFromPeriodEnd secondsFromPeriodStart 
和 secondsFromGameStart, 分 别 对 应 “本 节 剩 余 时 间 ”"“ 本 节 已 过 时 间 ” 和 “比赛 开始 
时 间 ”。 青 算 上 “ 节 ”, 对 用 户 有 用 的 与 比赛 时 间 相 关 的 字段 共有 4 个 。 对 于 一 场 球 赛 
来 说 ,最 大 的 时 间 单 位 应 该 是 “ 节 ”, 因 此 我 们 从 “ 节 ” 开 始 分 析 。 首 先进 行 Code 9-6 的 
操作 。 


Code 9-6 科比 各 “ 节 ” 的 命中 率 





In [13]: Kobe.pivot table(index=['season', period'],values = ['shot made flag'], 
aggfunc - np. nean) 
Out [13]: shot made flag 
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Season period 

.377358 
.458015 
.489796 
.392857 
333333 
. 000000 
.389610 
.463519 


1996 - 97 0 
0 
0 
0 
0 
0 
0 
0 
0.408537 
0 
0 
0 
0 
0 
0 
0 


1997 - 98 


.446640 
.166667 
.432692 
.445860 
.483092 
.468085 
.600000 


1998 - 99 


QU o & QNM ^O U à UN P OQ U à UM 


2013 - 14 .473684 
.500000 
.300000 
333333 
.405063 
.408696 
.389474 
.295082 
. 250000 
. 346405 
.371681 
.379167 
.318750 


2014 - 15 


2015 - 16 


o o c o ooo0o00o0o0.o060 


109 rows X 1 columns 
In [14]: Kobe.pivot table(index- ['period'],values = ['shot made flag'], 
aggfunc = np. nean) 
Out [14]: shot made flag 
period 
.465672 
. 448802 
.453442 
.413702 
.442857 
.466667 
.428571 
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考虑 到 科比 本 身 年 龄 因素 对 结果 的 影响 ,这 里 除了 计算 各 节 比 赛 的 平均 命中 率 
以 外 ,还 分 别 计 算 了 每 赛季 的 各 节 平 均 命 中 率 。 从 整个 职业 生涯 来 讲 , 科 比 各 节 命 中 
EM ES SMIKI Ag 1732-4. JI 3E rp 8 2 个 加 时 命中 率 最 高 。 具 体 到 每 个 赛季 的 
情况 ,分别 用 折线 图 进行 可 视 化 ,代码 如 Code 9-7 Brzs ,结果 如 图 9-2 所 示 。 


Code 9-7 科比 职业 生涯 中 各 节 命 中 率 的 变化 (赛季 ) 





In [15]: 


In [16]: 


In [17]: 


Out [17]: 


p_1 = Kobe[Kobe. period == 1].pivot table(index- [ 'season'], 


values - 


'shot made flag'],aggfunc = np. mean) 


p.2 = Kobe[Kobe. period == 2]. pivot_table( index = [ 'season'], 


values = 


'shot made flag'],aggfunc = np. mean) 


p.3 = Kobe[Kobe. period == 3].pivot table(index- [ 'season'], 


values = 


'shot made flag'],aggfunc = np. mean) 


p.4 = Kobe[Kobe. period == 4].pivot table(index- ['season'], 


values = 


'shot made flag'],aggfunc = np. mean) 


p.t = Kobe.pivot table(index- [ 'season'], 


values - 





'shot made flag'],aggfunc - np. mean) 


p. 1l.index- p 1. index. map( lambda x:x[:4]) 

p. 2. index - p 2. index. map( lambda x:x[ :4]) 

p. 3. index = p 3. index. map( lambda x:x[ :4]) 

p. 4. index = p. 4. index. map( lambda x:x[ :4]) 

p. t. index = p. t. index. map( lambda x: int(x[ :4])) 
plt.plot(p 1) 

plt.plot(p 2) 

plt.plot(p 3) 

plt.plot(p 4) 

plt.plot(p t) 

plt. legend( ( 'period 1', 'period 2', 'period 3', period 4', total')) 
< matplotlib. legend. Legend at 0x11550f908 > 
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图 9-2 科比 职业 生涯 中 各 节 命中 率 的 变化 图 
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[*) 


观察 可 视 化 结果 ,可 以 发 现 科 比 整个 职业 生涯 中 命中 率 最 高 的 节 通 常 是 1、2 节 ， 
有 些 时 期 是 第 3 节 最 高 ,而 第 4 节 的 命中 率 始终 都 不 高 ,加 时 赛 的 情况 比较 特殊 , 且 
数量 较 少 ,因此 未 将 其 可 视 化 。 

在 分 析 过 每 节 的 表现 以 后 进一步 细 化 ,考虑 到 每 次 进攻 的 时 限 是 24 秒 , 不 妨 将 
每 节 比赛 划分 为 一 个 个 24 秒 的 区 间 ,以 此 来 发 现 科比 在 一 节 比 赛 中 命中 率 的 变化 
规律 。 

首先 ,通过 Code 9-8 统计 一 下 科比 在 每 个 24 秒 区 间 内 的 出 手 次 数 和 成 功 次 数 。 

Code 9-8 ”统计 每 个 24 秒 区 间 内 科比 的 出 手 次 数 及 成 功 次 数 


In [18]: time slice = 24 
time bins = np.arange(0,60* (4*12*3*5),time slice) * 0.01 
In [19]: attempt shot,b- np. histogram(Kobe[ 'secondsFromGameStart'], 


bins- time bins) 





made shot,b- np. histogram(Kobe. loc[Kobe[ shot made flag'] ==1, 
'secondsFromGameStart'],bins - time bins) 
In [20]: attempt shot 
Out [20]: array([137, 191, 232, 237, 225, 226, 211, 219, 221, 210, 206, 230, 197, 
205, 181, 201, 225, 226, 213, 238, 238, 230, 242, 238, 246, 179, 
217, 229, 314, 336, 75, 131, 114, 122, 117, 100, 121, 129, 112, 
125, 126, 122, 149, 168, 173, 197, 213, 237, 226, 251, 256, 223, 
224, 233, 261, 214, 222, 231, 331, 432, 146, 236, 229, 239, 241, 
252, 252, 245, 215, 227, 248, 226, 232, 242, 217, 211, 249, 232, 
251, 250, 226, 245, 218, 219, 228, 208, 195, 206, 267, 350, 133, 
115, 146, 131, 143, 148, 166, 143, 161, 142, 143, 180, 194, 212, 
206, 219, 211, 244, 236, 219, 233, 226, 227, 218, 212, 267, 268, 
263, 265, 372, 16, 18, 24, 18, 16, 15, 15, 30, 19, 17, 
21, 35, 3015 2, LG 3; 1l, 3. 3, 3, S L 
2, 6; 0, QU; dy do 05 05 O04 3 O0. dno 12311) 





观察 出 手 次 数 的 统计 结果 ,发现 一 般 都 在 100 以 上 ,加 时 赛 部 分 则 相对 较 少 ,有 
些 甚 至 不 到 10。 为 了 保证 结果 的 说 服 力 , 计 算 过 程 中 将 出 手 次 数 10 以 下 的 数据 去 
掉 。 通 过 Code 9-9 计算 每 个 24 秒 区 间 的 命中 率 并 进行 可 视 化 ,其 结果 如 图 9-3 
所 示 。 


Code 9-9 ”计算 并 可 视 化 每 个 24 秒 区 间 的 科比 命中 率 





In [21]: attempt shot[attempt shot« 10] = 1 
accuracy = made shot / attempt shot 


accuracy[accuracy »- 1] = 0 
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In [22]: height - 1 
bar width = 0.999 * (time bins[1] - time bins[0]) 
In [23]: pilt.xlim((- 20,3200)) 
plt. ylim((0, height)) 
plt. ylabel('accuracy') 
plt.title('24 second time bins') 
plt.vlines(x- [0,12 * 60,2 * 12* 60,3* 12* 60,4 * 12* 60,4* 12* 60 +5 * 60, 
4*12*60*2*5*60,4*12*60*3*5*60], ynin- 0, ymax = height, colors- 'r') 
plt.bar(time bins[: —1],accuracy, align= 'edge', width= bar width) 
Out [23]: «Container object of 157 artists» 





24 second time bins 








accuracy 


500 1000 1500 2000 2500 3000 


图 9-3 科比 24 秒 区 间 命中 率 柱状 图 


Code 9-10 进一步 细 化 时 间 区 间 ,计算 12 秒 .6 秒 区 间 的 命中 率 ,结果 如 图 9-4 
Bim. 


Code 9-10 3 种 时 间 区 间 科 比 命中 率 


In [24]: time slices = [24,12,6] 
plt.figure() 
In [25]: for i, time slice in enumerate(time slices): 
time bins = np.arange(0,60 * (4* 124 3* 5),time slice) + 0.01 
attempt shot, b= np. histogran(Kobe[ 'secondsFronGameStart'], 
bins- time bins) 
made shot,d- np.histogram(Kobe. loc[Kobe['shot made flag']-- 1, 
'secondsFromGameStart'], bins - time bins) 
attempt shot[attempt shot < 10] = 1 
accuracy - made shot / attempt shot 
accuracy[accuracy >= 1] = 0 
plt. subplot(3,1,i +1) 
plt.xlim(( - 20,3200) ) 
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plt. ylim( (0, height)) 

plt. ylabel( 'accuracy') 

plt.title(str(time slice) + ' second time bins') 

plt.vlines(x- [0,12 * 60,2 * 12 * 60,3* 12* 60,4 * 12 * 60, 
4*12*60*5*60,4*12*60*2*5*60,4*12*60*3*5*60], 
ymin = 0, ymax = height, colors- 'r') 

plt.bar(time bins[: —1],accuracy, align= 'edge', width = bar width) 





24 second time bins 





accuracy 





1500 2000 


12 second time bins 








accuracy 





1500 


accuracy 








9-4 科比 3 种 时 间 区 间 命 中 率 柱状 图 


在 该 图 中 蓝 色 条 是 命中 率 ,红线 代表 各 节 的 起 始 。 在 3 种 区 间 下 都 能 看 出 来 ,大 
部 分 时 间 命 中 率 都 在 0. 4 一 0. 6 ,与 之 前 计算 的 平均 情况 一 样 , 但 是 在 每 节 即 将 结束 时 
命中 率 会 有 明显 的 下 降 ,另外 加 时 赛 部 分 的 命中 率 相对 要 更 高 一 些 。 
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接 下 来 可 以 分 析 “ 出 手 位 置 ” 的 影响 ,在 数据 中 与 位 置 相关 的 字段 有 loc x.loc y. 
shot_zone_area、shot_zone_basic 和 shot zone range. Code 9-11 计算 各 个 位 置 的 投 
篮 命中 率 。 


Code 9-11 计算 各 个 位 置 的 命中 率 





In [26]: Kobe.pivot table(index- 'shot zone area',values - ['shot made flag'], 


aggfunc = np. nean) 


Out [26]: Shot made flag 

shot zone area 

Back Court(BC) 0.013889 
Center(C) 0.525556 
Left Side Center(LC) 0.361177 
Left Side(L) 0.396871 
Right Side Center(RC) 0.382567 
Right Side(R) 0.401658 


In [27]: Kobe.pivot table(index- 'shot zone basic',values = ['shot made flag'], 
aggfunc = np. mean) 

Out [27]: shot made flag 
shot zone basic 


Above the Break 3 0.329237 
Backcourt 0.016667 
In The Paint (Non- RA) 0.454381 
Left Corner 3 0.370833 
Mid - Range 0.406286 
Restricted Area 0.618004 
Right Corner 3 0.339339 


In [28]: Kobe.pivot_table( index = 'shot zone range',values = ['shot made flag'], 
aggfunc = np. nean) 


Out [28]: shot made flag 
shot zone range 
16 — 24 ft. 0.401766 
264 £ft. 0.332513 
8-16 ft. 0.435484 
Back Court Shot 0.013889 
Less Than 8 ft. 0.573120 





从 整体 来 看 , 离 篮板 越 近 的 位 置 命中 率 越 高 。 若 要 可 视 化 场 上 各 位 置 的 命中 率 ， 
首先 需要 画 出 球场 的 轮廓 ,可 以 参考 Code 9-12 的 方法 绘制 如 图 9-5 所 示 的 球场 
轮廓 。 
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Code 9-12 ”绘制 球场 轮廓 





In 


[29]: 


from matplotlib. patches import Circle, Rectangle, Arc 
import matplotlib as mpl 


def draw court(ax- None, color = 'black', 1w-2, outer lines = False): 


if ax is None: 
ax = plt.gca() 
hoop = Circle((0, 0), radius = 7.5, linewidth = lw, color = color, fill = 
False) 
* Create backboard 
backboard = Rectangle(( - 30, - 7.5), 60, - 1, linewidth = lw, color = 
color) 
# Create the outer box 0f the paint, width= l6ft, height = 19ft 
outer box = Rectangle(( — 80, — 47.5), 160, 190, linewidth- lw, 
color = color, fill = False) 
* Create the inner box of the paint, widt = 12ft, height = 19ft 
inner box = Rectangle(( —- 60, - 47.5), 120, 190, linewidth- lw, 
color = color, fill- False) 
* Create free throw top arc 
top free throw = Arc((0, 142.5), 120, 120, thetal- 0, theta2 = 180, 
linewidth- lw, color- color, fill- False) 
* Create free throw bottom arc 
bottom free throw = Arc((0, 142.5), 120, 120, thetal = 180, 
theta2 = 0, linewidth = lw, color = color, 
linestyle = 'dashed') 
* Restricted Zone, it is an arc with 4ft radius from center of the hoop 
restricted = Arc((0, 0), 80, 80, thetal- 0, theta2 = 180, linewidth = lw, 
color = color) 
* Three point line 
corner three a = Rectangle(( - 220, - 47.5), 0, 140,linewidth- lw, 


color = color) 


" 


corner three b Rectangle((220, - 47.5), 0, 140, linewidth- lw, 
color = color) 
three arc = Arc((0, 0), 475, 475, thetal = 22, theta2 = 158, 
linewidth- lw, color = color) 


* Center Court 


center outer arc Arc((0, 422.5), 120, 120, thetal = 180, theta2 = 0, 
linewidth- lw, color = color) 


Arc((0, 422.5), 40, 40, thetal = 180, theta2 = 0, 


center inner arc 
linewidth- lw, color = color) 

* List of the court elements to be plotted onto the axes 

court elements - [hoop, backboard, outer box, inner box, 
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top free throw,bottom free throw, 
restricted, corner three a, corner three b, 
three arc, center outer arc,center inner arc] 
if outer lines: 
outer lines = Rectangle(( — 250, — 47.5), 500, 470, linewidth- lw, 
color- color, fill- False) 
court elements. append(outer lines) 
for element in court elements: 
ax.add patch(element) 
return ax 
In [30]: draw court(outer lines = True) 
plt. ylin( - 60,440) 
plt.xlim(270, - 270) 
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9-5 {EJ Matplotlib 绘制 球场 轮廓 


Code 9-13 一 Code 9-16 分 别 统计 科比 职业 生涯 中 的 进 球 位 置 以 及 科比 在 各 个 位 
置 上 的 命中 率 , 可 视 化 结果 如 图 9-6 一 图 9-9 所 示 。 
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Code 9-13 ”科比 职业 生涯 中 的 全 部 进 球 位 置 





In [31]: draw_court(outer_lines = True) 
plt. ylim( — 60,440); plt.xlin(270, - 270) 
for i,l in enumerate([ 'done', '£fail']): 
plt.scatter(x = Kobe. loc[Kobe[ 'shot made flag'] == i, loc x'], 
y= Kobe. loc[Kobe[ 'shot made flag']-- i, 'loc_y'], label = 1) 
plt. legend() 
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图 9-6 科比 职业 生涯 中 的 全 部 进 球 位 置 示意 图 


Code 9-14 科比 场 上 各 位 置 (shot zone area) 的 平均 命中 率 





In [32]: tmp = Kobe[['loc x', loc y']] 
tmp['shot area'] = Kobe.shot zone area 
tmp['shot range'] - Kobe.shot zone range 
tmp['shot basic'] = Kobe.shot zone basic 
In [33]: draw court(outer lines = True) 
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plt. ylim( - 60,440); plt.xlim(270, - 270) 
for i,l in enumerate(pd. Categorical(tmp. shot area).categories. values): 
k - Kobe.pivot table(index- 'shot zone area', 
values = ['shot made flag'],aggfunc = np. mean). 
get value(l, shot made flag') 
plt. scatter(x = tmp.loc[tmp['shot area'] == 1, loc x'], 
y= tmp.loc[tmp['shot area'] == 1, loc y'], 
label = 14 :'*str(k)[:4]) 
plt. legend( ) 
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9-7 科比 场 上 各 位 置 (shot zone area) 的 平均 命中 率 的 可 视 化 结果 


Code 9-15 ”科比 场 上 各 位 置 (shot basic) 的 平均 命中 率 





In [34]: draw court(outer lines = True) 
plt. ylin( - 60,440); plt.xlim(270, — 270) 
for i,l in enumerate(pd. Categorical(tmp. shot basic).categories.values): 
k = Kobe.pivot table(index- 'shot zone basic', 
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values = ['shot made flag'],aggfunc = np. mean). 
get value(l, shot made flag') 














plt. scatter(x = tmp.loc[tmp['shot basic'] == 1,'loc x'], 
y= tmp.loc[tmp['shot basic'] == 1, loc y'], 
label = 1-5 :'*str(k)[:4]) 
plt.legend() 
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" * Backcour:0.01 
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图 9-8 科比 场 上 各 位 置 (shot basic) 的 平均 命中 率 的 可 视 化 结果 


Code 9-16 科比 场 上 各 位 置 (shot range) 的 平均 命中 率 





In [35]: draw court(outer lines= True) 
plt. ylin( - 60,440); plt.xlim(270, — 270) 
for i,l in enumerate(pd. Categorical(tmp. shot range).categories. values): 
k = Kobe.pivot table(index- 'shot zone range', 
values - ['shot made flag'],aggfunc - np. mean). 
get value(l, shot made flag') 
plt.scatter(x- tmp.loc[tmp['shot range'] == 1, 'loc x'], 
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y= tmp.loc[tmp['shot range'] == 1,'loc y'], 
label = l4 :'*str(k)[:4]) 











plt. legend() 
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图 9-9 科比 场 上 各 位 置 (shot range) 的 平均 命中 率 的 可 视 化 结果 
科比 在 球场 上 各 位 置 进 球 的 准确 率 我 们 已 经 通过 图 9-7 一 图 9-9 有 些 了 解 。 但 
是 ,实际 上 人 的 出 手 位 置 和 球场 上 人 为 划分 的 区 域 是 有 一 定 区 别 的 。Code 9-17 对 科 
比 场 上 的 进 球 位 置 做 聚 类 ,得 出 如 图 9-10 所 示 的 针对 科比 自身 情况 的 进 球 位 置 划 分 
方式 以 及 各 位 置 的 命中 率 。 


Code 9-17. ”对 科比 场 上 的 进 球 位 置 做 聚 类 





In [36]: from sklearn import mixture 
g num - 13 
gmm = mixture.GMM(n components = g num, covariance type- 'full', params = 'wnc', 
init params = 'wnc',random state- 1, n init= 3) 
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gmm. fit(Kobe. ix[ :,['loc_x', 'loc_y']]) 
Kobe['cluster'] = gmm.predict(Kobe. ix[ :,['loc_x', loc y']]) 
In [37]: draw court(outer lines = True) 
plt. ylim( — 60,440); plt.xlim(270, - 270) 
plt. scatter(x = Kobe. loc x,y- Kobe. loc_y, c = Kobe. cluster) 
tmp = Kobe. pivot_table( index = 'cluster',values = ['shot made flag'], 
aggfunc = np. nean). values 
for (a,b), text in zip(gmm.means ,tmp): 
t = str(text) [1:6] 
plt. text(a, b, t, color = 'magenta') 
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图 9-10 ”对 科比 场 上 的 进 球 位 置 做 聚 类 的 可 视 化 结果 


图 9-10 使 用 sklearn 中 提供 的 混合 高 斯 模型 进行 聚 类 ,将 科比 场 上 的 进 球 位 置 
分 为 13 个 聚 类 ,并 用 可 视 化 方法 展示 了 科比 在 各 个 位 置 的 命中 率 , 得 到 的 结果 与 之 
前 的 并 不 矛盾 ,科比 在 篮 下 进 球 的 成 功率 最 高 ,而 且 科 比 在 右 侧 的 命中 率 通常 高 于 左 
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侧 ,但 是 在 端 线 附近 正好 相反 , 左 侧 的 命中 率 反 而 较 高 。 
在 原始 数据 中 进 球 方式 有 6 个 大 类 、55 个 小 类 ,各 类 动作 的 命中 率 可 以 用 
Code 9-18 计算 。 


Code 9-18 ” 进 球 方式 命中 率 





In [38]: shot type accuracy = Kobe.pivot table( 
index- ['combined shot type', action type'], 
values = ['shot made flag'],aggfunc = np. mean) 

In [39]: shot type accuracy ['shot made flag'] 
. groupby( level = 0,group keys = False).nlargest(5) 


Out [39]: Shot made flag 

combined shot type action type 

Bank Shot Hook Bank Shot . 000000 
Running Bank shot 837209 
Turnaround Bank shot . 793103 
Driving Bank shot 666667 
Pullup Bank shot .545455 

Dunk Reverse Slam Dunk Shot . 000000 
Running Slam Dunk Shot . 000000 
Slam Dunk Shot 982036 


Driving Slam Dunk Shot .976744 


Driving Dunk Shot 976654 
Hook Shot Running Hook Shot .878788 
Driving Hook Shot 615385 
Turnaround Hook Shot 500000 
Hook Shot 369863 
Jump Shot Driving Floating Bank Jump Shot 000000 
Fadeaway Bank shot 888889 
Jump Bank Shot . 775087 
Running Jump Shot .747112 
Jump Hook Shot 736842 
Layup Turnaround Finger Roll Shot 000000 


881356 
.852941 
821429 
.746988 
.350993 
.000000 


Driving Finger Roll Layup Shot 
Driving Finger Roll Shot 
Finger Roll Layup Shot 
Driving Reverse Layup Shot 
Tip Shot Tip Shot 
Running Tip Shot 
In [40]: shot type accuracy[ shot made flag'] 


Ooo0o0o0o0^ooooo^oooooooeoneooooonxm 


.groupby(level- 0,group keys = False).mean() 
Out [40]: combined shot type 
Bank Shot 0.768487 


(154) Python 数据 分 析 实 战 | 


Dunk 0.877933 
Hook Shot 0.591009 
Jump Shot 0.649564 
Layup 0.659099 
Tip Shot 0.175497 


Name: shot made flag, dtype: float64 





从 粗 分 类 来 看 ,命中 率 最 高 的 是 扣篮 (Dunk) HE (Bank Shot) ,达到 了 7096 EA 
上 ,最 低 的 是 补 篮 CTip ShoO ,只 有 不 到 20%。 由 于 详细 分 类 动作 类 型 很 多 ,这 里 只 
看 每 个 大 类 中 命中 率 最 高 的 5 个 ,可 以 发 现 ,从 详细 分 类 来 看 ,各 种 跳投 (Jump Shot) 
和 各 种 上 篮 (Layup) 的 命中 率 也 很 可 观 。 

通常 ,主场 作战 可 能 有 一 定 的 优势 ,Code 9-19 分 析 主 /客场 对 科比 命中 率 的 


影响 。 


In [41]: 


In [42]: 


Out [42]: 


In [43]: 
Out [43]: 


In [44]: 
Out [44]: 





In [45]: 
Out [45]: 


Code 9-19 主 / 客 场 命中 率 的 比较 


home accuracy = Kobe[Kobe[ 'home'] == 1].pivot table( 
index = ['opponent'], values = ['shot made flag']) 
away accuracy = Kobe[Kobe[ 'home'] == 0]. pivot table( 
index = ['opponent'], values = ['shot made flag']) 
Compare - home accuracy - away accuracy 
compare[compare[ shot made flag'] > 0].count() 
shot made flag 25 
dtype: int64 
compare[compare[ shot made flag'] «0].count() 
shot made flag 8 
dtype: int64 
home accuracy. mean() 
shot made flag 0.452611 
dtype: float64 
away accuracy. mean( ) 
shot made flag ^ 0.433512 
dtype: float64 





从 总 体 来 看 ,科比 在 主场 的 命中 率 更 高 ,平均 值 为 45% ,而 在 客场 的 命中 率 大 约 
为 43%。 分 别 计算 面 对 同样 对 手 时 科比 在 主 / 客 场 的 命中 率 , 可 以 发 现 ,多 数 情况 下 
面 对 同 一 个 对 手 , 科 比 也 是 在 主场 的 命中 率 更 高 。 
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9.3 分 析 科 比 的 投篮 习惯 


每 个 篮球 选手 都 有 自己 的 一 套 习 惯 , 出 手 时 机 、 出 手 位 置 、 得 分 方式 等 都 有 其 个 
人 的 特色 ,在 这 里 可 以 简单 分 析 一 下 科比 的 投篮 习惯 。 

首先 分 析 科 比 的 得 分 方式 。 在 9. 2 节 已 经 知道 了 科比 共 使 用 过 6 大 类 55 种 进 
球 方式 ,与 9. 2 节 不 同 , 本 节 主 要 关注 科比 每 一 种 方式 共有 多 少 次 出 手 , 具 体 代 码 如 
Code 9-20 所 示 。 


Code 9-20 ”科比 各 得 分 方式 的 使 用 概率 


In [46]: shot attempt = Kobe. groupby([ 'combined shot type', 
'action type'])['shot id'].count() 
.to frame( 'attempt') 
Shot attempt[ percentage'] = shot attempt.attempt 
/ shot attempt.attempt. sum() 
In [47]: shot attempt.groupby(level- 0,group keys = False)['percentage'].sum() 
Out [47]: combined shot type 
Bank Shot 0.004670 
Dunk 0.041094 
Hook Shot 0.004942 
Jump Shot 0.767016 
Layup 0.176363 
Tip Shot 0.005915 
Name: percentage, dtype: float64 
In [48]: shot attenpt[ 'percentage']. nlargest(5) 
combined shot type action type 


Jump Shot Jump Shot 0.616259 
Layup Layup Shot 0. 083823 

Driving Layup Shot ^ 0.063354 
Jump Shot Turnaround Jump Shot 0.034673 


Fadeaway Jump Shot — 0.033934 
Name: percentage, dtype: float64 





经 过 简单 的 操作 ,可 以 发 现 6 类 动作 中 科比 最 喜欢 用 跳投 的 方式 ,进一步 细 化 后 
发 现 科比 最 常用 的 5 种 得 分 方式 为 普通 跳投 普通 上 篮 、 突 破 上 篮 、 转 身 跳 投 与 后 仰 跳 
投 。 而 且 仔细 观察 可 知 , 科 比 所 用 的 进 球 方式 绝 大 多 数 都 是 跳投 ,超过 他 总 出 手 次 数 的 
50%. Hj Code 9-21 的 方法 可 绘制 如 图 9-11 所 示 的 科比 各 得 分 方式 使 用 概率 饼 图 。 
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Code 9-21 可 视 化 科比 得 分 方式 的 使 用 概率 





In [49]: tmp = shot attempt[ 'percentage'].nlargest(9).to frame() 
tmp.index - tmp. index. map(lambda x:x[1]) 
tmp.ix['rest'] = 1- tmp['percentage']. sun() 
In [50]: tmp com- shot attempt 
. groupby( level = 0, group keys = False)[ 'percentage'] 
.sum() 
In [51]: plt.subplot(2,2,1) 
plt.pie(tmp, labels = tmp. index,autopct = '& .0f & & ') 
plt. subplot(2,2,2) 
plt. pie(tmp_com, labels = tmp com. index, autopct = '& .0f% % ') 
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图 9-11 科比 各 得 分 方式 使 用 概率 饼 图 


对 科比 出 手 位 置 的 分 析 与 上 一 节 情 况 类 似 ,Code 9-22 计算 科比 在 各 个 位 置 的 出 
手 概率 。 


Code 9-22 ”科比 各 个 位 置 的 出 手 概率 





In [52]: shot attempt = Kobe.groupby(['shot zone area', 
'shot zone basic', 
'shot zone range'])[ shot id'] 
.count().to frame('attempt') 
Shot attempt[ 'percentage'] = 
shot attempt.attempt / shot attempt.attempt. sum() 
In [53]: fori inrange(3): 
tmp = shot attempt.groupby(level- i,group keys = False).sum() 
plt.subplot(3,3,2* i*2) 
plt.pie(tmp[ 'percentage'], labels = tmp. index,autopct = '& .0f & & ') 
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图 9-12 展示 了 在 3 种 场地 划分 方式 下 科比 在 各 个 位 置 的 出 手 概率 ,可 以 发 现 科 
比 在 内 线 出 手 的 概率 更 大 ,这 与 科比 得 分 后 卫 / 小 前 锋 的 定位 是 比较 一 致 的 。 
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图 9-12 科比 各 个 位 置 出 手 概率 饼 图 


想 要 更 加 有 具体 地 研究 科比 的 出 手 位置 , 可 以 利用 聚 类 分 析 的 方法 对 科比 的 进 球 
位 置 进 行 聚 类 。 由 于 9. 2 节 已 经 进行 了 聚 类 ,所 以 这 里 不 再 重复 ,直接 使 用 9.2 节 的 
聚 类 结果 ,具体 操作 如 Code 9-23 所 示 ,可 视 化 结果 如 图 9-13 所 示 。 


Code 9-23 ”科比 出 手 位 置 聚 类 及 其 概率 


In [54]: colors = ['red', 'green', purple', 'cyan', 'magenta', 'yellow', blue', 
'orange', 'silver', maroon', lime', 'olive', 'brown', 'darkblue'] 
texts = [str(100 * gmm. weights [x])[:4] + '% ' for x in range(13)] 
fig, h = plt.subplots() 
for i, (mean, matrix) in enumerate( 
zip(gmm.means , gmm. get covars())): 
v, w = np.linalg.eigh(matrix) 
v = 2.5* np.sqrt(v) 
u = w[0] / np. linalg. norn(w[0]) 
angle = np.arctan(u[1] / u[0]) 
angle = 180 * angle / np.pi 
curr = mpl.patches.Ellipse(mean, v[0], v[1], 
180 + angle, color- colors[i]) 
curr.set alpha(0.5) 
h.add artist(curr) 
h.text(mean[0] + 7, mean[1]— 1, texts[i], fontsize- 12) 
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draw court(outer lines = True) 
plt. ylim( - 60,440) 
plt.xlim(270, - 270) 
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图 9-13 科比 出 手 位 置 聚 类 可 视 化 结果 


接 下 来 分 析 科 比 对 出 手 时 机 的 偏好 。 首 先 利 用 Code 9-24 计算 科比 每 一 节 比 赛 
出 手 次 数 的 平均 值 。 


Code 9-24 科比 平均 每 节 的 出 手 次 数 





In [55]: shot attempt = Kobe.groupby(['season', game id', 'period'])['shot id'] 
.count().to frame( 'attempt') 
In [56]: shot attempt.groupby(level- 2,group keys = False).mean() 


Out [56]: attempt 
period 
1 4.539295 
2 3.830727 


3 4.786056 
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4.486266 
3.146067 
2.500000 
3.500000 


200 & 





然后 看 科比 各 节 出 手 次 数 的 职业 生涯 平均 值 ,可 以 看 到 第 3 节 的 出 手 次 数 最 多 。 接 
下 来 看 各 节 出 手 次 数 的 平均 值 随 赛季 的 变化 ,代码 如 Code 9-25 所 示 , 如 果 如 图 9-14 Bras 


Code 9-25 ”各 节 出 手 次 数 的 平均 值 随 赛季 的 变化 


In [57]: fori inrange(1,5): 
tmp = shot attempt. groupby( level = [0,2], group keys = False) 
.mean().xs(i,level- 1) 
tmp. index = tmp. index. map( lambda x: x[:4]) 
plt. plot(tmp, label = 'period' + str(i)) 
plt. legend( ) 
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图 9-14. 科比 每 节 出 手 次 数 的 平均 值 随 赛季 变化 的 折线 图 
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可 以 发 现 科比 在 正 赛 中 出 手 的 情况 比较 稳定 , 绝 大 多 数 时 期 都 是 第 3 节 最 多 、 第 
2 节 最 少 ,这 与 前 面 计算 的 生 淮 平 均 情况 一 致 

前 文 发 现 ,科比 在 每 一 节 将 结束 时 命中 率 有 明显 下 降 , 下 面 分 析 一 下 出 手 次 数 有 
没有 类 似 的 规律 ,代码 如 Code 9-26 所 示 ,相应 出 手 次 数 柱状 图 如 图 9-15 所 示 。 


Code 9-26 ”科比 出 手 时 机 (3 种 时 间 区 间 ) 





In [58]: time slices = [24,12,6] 

plt.rcParams[ 'figure.figsize'] = (16, 16) 

plt.rcParams[ 'font.size'] = 16 

plt.figure() 

for i, time slice in enumerate(time slices): 
time bins = np.arange(0,60* (4* 12* 3* 5), time slice) * 0.01 
attempt shot,b = np. histogram(Kobe[ 'secondsFromGameStart'], 

bins = time bins) 


24 second time bins 
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图 9-15 科比 在 3 种 时 间 区 间 下 的 出 手 次 数 柱状 图 
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height = max(attempt shot) +10 

plt. subplot(3,1,i+1) 

plt. xlim(( —- 20,3200) ) 

plt. ylim( (0, height) ) 

plt. ylabel('attempt') 

plt. title(str(time_slice) + ' second time bins') 

plt. vlines(x= [0,12 * 60,2 * 12* 60,3 * 12 * 60,4 * 12 * 60, 
4*12*60+5%*60,4*12*60+2%*5%*60,4%*12%*60+3%*5»*60], 
ymin = 0, ymax = height, colors = 'r') 

plt.bar(time bins[: -1],attempt_shot,align = 'edge', 
width- bar width) 


观察 图 9-15 可 以 发 现 ,在 每 一 节 比 赛 结束 前 科比 的 出 手 次 数 激 增 。 可 以 推测 ， 
科比 在 每 节 比赛 结束 前 命中 率 降 低 可 能 是 因为 出 手 次 数 增加 。 由 此 可 以 知道 ,科比 
喜欢 压 哨 出 手 , 虽 然 此 时 的 投球 常常 不 能 得 分 。 


实例 : 世界 杯 





四 年 一 度 的 世界 杯 是 全 世界 足球 爱好 者 的 盛事 。 自 1930 年 以 来 , 除 1942 年 和 
1946 年 因 第 二 次 世界 大 战 的 原因 未 能 开赛 以 外 ,每 一 届 世 界 杯 都 给 人 们 留 下 了 难忘 
的 回忆 。 本 章 利用 世界 杯 比 赛 . 运 动员 等 数据 分 析 历 届 世 界 杯 的 进 球 .参数 队 伍 等 方 
面 的 规律 。 


10.1 数据 说 明 


本 例 主要 使 用 的 数据 有 3 个 , 即 世界 杯 比 赛 . 世 界 杯 运动 员 和 世界 杯 基 本 情况 。 
其 中 ,世界 杯 比赛 ”记录 具体 的 每 一 场 球赛 的 数据 “世界 杯 运动 员 ” 记 录 每 一 位 参赛 
队员 的 基本 情况 ”世界 杯 基本 情况 ?记录 每 一 届 世 界 杯 的 年 份 , 东 道 主 ` 四 强 .总 进 球 
数 等 内 容 。 

Code 10-1 展示 了 3 条 世界 杯 比赛 数据 ,可 以 看 到 数据 包括 的 字段 有 年 份 \ 日 期 、 
比赛 阶段 .场馆 ,城市 . 主 /客场 队伍 、 主 /客场 得 分 .观众 人 数 . 半 场 比分 .裁判 .比赛 轮 
次 id 比赛 id 以 及 主 / 客 场 队伍 简称 等 。 
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Code 10-1 世界 杯 比 赛 数 据 样 例 





In [2]: 


In [3]: 
Out [3]: 


import pandas as pd 

import numy as np 

import seaborn as sns 

import itertools 

import io 

import base64 

import os 

import folium 

import folium. plugins 

import matplotlib. pyplot as plt 

from matplotlib import rc, animation 

from mpl toolkits.mplot3d import Axes3D 
from mpl toolkits.basemap import Basemap 
from wordcloud import WordCloud, STOPWORDS 


matches = pd.read csv('path/to/file/WorldCupMatches. csv') 
players = pd.read csv('path/to/file/WorldCupPlayers. csv') 


cups = pd.read csv('path/to/file/WorldCups.csv') 
matches. head(3) 


Year Datetime Stage Stadium City \ 
0 1930.0 13 Jul 1930 - 15:00 Group! Pocitos Montevideo 
1 1930.0 13 Jul 1930 - 15:00 Group 4 Parque Central Montevideo 
2 1930.0 14 Jul 1930 - 12:45  Group2 Parque Central Montevideo 


Home Team Name Home Team Goals Away Team Goals Away Team Name V 
0 France 4.0 1.0 Mexico 
1 USA 3.0 0.0 Belgium 
2 Yugoslavia 2.0 1.0 Brazil 


Win conditions Attendance Half - time Home Goals 


0 4444.0 3.0 
1 18346. 0 2.0 
2 24059. 0 2.0 
Referee Assistant 1 


LOMBARDI Domingo (URU) CRISTOPHE Henry (BEL) 


Half — time Away Goals V 
0.0 
0.0 
0.0 


Assistant 2 V 
REGO Gilberto (BRA) 


MACIAS Jose (ARG) MATEUCCI Francisco (URU) WARNKEN Alberto (CHI) 
TEJADA Anibal (URU) VALLARINO Ricardo (URU) BALWAY Thomas (FRA) 
RoundID MatchID Home Team Initials Away Team Initials 

0 201.0 1096. 0 FRA MEX 

1 201.0 1090. 0 USA BEL 

2 201.0 1093.0 YUG BRA 
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Code 10-2 展示 了 3 条 世界 杯 运动 员 数 据 ,数据 包含 轮 次 id 比赛 id、 队 伍 简称 、 
教练 姓名 、 场 上 位 置 . 号 码 .球员 姓名 等 字段 。 
Code 10-2 ”世界 杯 运 动员 数据 样 例 


In [4]: players.head(3) 





Out [4]: RoundID MatchID Team Initials Coach Name Line- up Shirt Number V 
0 201 1096 FRA CAUDRON Raoul (FRA) S 0 
1 201 1096 MEX LUQUE Juan (MEX) S 0 
2 201 1096 FRA CAUDRON Raoul (FRA) S 0 


Player Name Position Event 


0 Alex THEPOT GK  NaN 
1 Oscar BONFIGLIO GK  NaN 


2 Marcel LANGILLER NaN G40' 


Code 10-3 展示 了 3 条 世界 杯 基 本 情况 数据 ,数据 包含 年 份 、 主 办 国 、 前 4 名、 总 
进 球 数 ,参赛 队伍 .比赛 总 数 以 及 观众 人 数 等 字段 。 


Code 10-3 世界杯 基本 情况 数据 样 例 


In [5]: cups.head(3) 


Out [5]: Year Country Winner Runners- Up Third Fourth GoalsScored V 
0 1930 Uruguay Uruguay Argentina USA Yugoslavia 70 
1 1934 Italy Italy Czechoslovakia Germany Austria 70 
2 1938 France Italy Hungary Brazil Sweden 84 


QualifiedTeams  MatchesPlayed Attendance 


0 13 18 590.549 
1 16 17 363.000 
2 15 18 375.700 





10.2 ”世界杯 观众 


作为 世界 瞩目 的 体育 盛事 ,比赛 的 观众 数量 是 反映 世界 杯 受 关注 程度 最 直接 的 
指标 ,因此 分 析 从 统计 历届 世界 杯 的 观众 总 数 开 始 , 具 体操 作 如 Code 10-4 所 示 。 首 
先 去 掉 世 界 杯 比赛 数据 中 Attendance 字段 的 重复 数据 ,然后 根据 Year 字段 对 其 进 
行 累加 ,再 使 用 Seaborn 和 Matplotlib 进行 可 视 化 ,可视化 结果 如 图 10-1 所 示 。 
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Code 10-4 统计 历届 世界 杯 的 观众 数 








In [6]: matches. isnull().sum() 
sns.set style("darkgrid") 
matches = matches.drop duplicates(subset = "MatchID",keep = "first") 
matches = matches[matches["Year"].notnull()] 
att = matches. groupby("Year")["Attendance"].sum().reset index() 
att["Year"] = att["Year"].astype(int) 
plt.figure(figsize- (12,7)) 
sns. barplot(att["Year"],att["Attendance"], 
linewidth- 1, edgecolor = "k" * len(att)) 
plt.grid(True) 
plt.title("Attendence by year",color = 'b') 
plt.show() 


Attendence by year 
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10-1 历届 世界 杯 的 观众 数 


可 以 发 现 ,世界 杯 的 观众 数 整体 呈现 逐渐 增加 的 趋势 ,1994 年 世界 杯 的 观众 人 
数 最 多 ,1998 年 和 2002 年 的 观众 人 数 略 有 下 滑 ,但 依然 高 于 1994 年 以 前 的 观众 数 ， 
2002 年 以 后 的 最 近 3 届 世 界 杯 的 观众 数 都 稳定 在 3 000 000 人 次 以 上 。 考 虑 到 赛制 
改变 等 因素 ,历届 世界 杯 的 比赛 场次 数量 存在 一 定 的 差异 ,可 以 进一步 计算 每 届 世 界 
杯 观众 数 的 平均 值 ,进一步 分 析 表 示 历 届 世 界 杯 的 影响 力 。 其 具体 操作 如 Code 10-5 
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所 示 ,可 视 化 结果 如 图 10-2 所 示 。 


Code 10-5 ”历届 世界 杯 比赛 的 观众 平均 数 





In [7]: attl = matches.groupby("Year")["Attendance"].mean().reset index() 
attl["Year"] = attl["Year"].astype(int) 
plt.figure(figsize- (12,7)) 
ax = sns.pointplot(attl["Year"],attl["Attendance"],color = "w") 
ax.set facecolor("k") 
plt.grid(True, color = "grey", alpha = .3) 
plt.title("Average attendence by year", color = 'b') 


plt. show( ) 
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图 10-2 历届 世界 杯 观众 数 的 平均 值 


图 10-2 显示 的 结果 与 图 10-1 基本 一 致 ,整体 呈 上 升 趋势 ,1994 年 最 高 ,2006 
2014 年 的 总 人 数 稳定 在 较 高 水 平 

当然 ,世界 杯 的 观众 人 数 也 会 受到 主办 国家 、 比 赛 城市 的 影响 。Code 10-6 计算 
各 个 比赛 城市 的 平均 观众 人 数 , 并 用 可 视 化 方式 展示 平均 值 最 高 的 20 个 城市 ,结果 
如 图 10-3 所 示 。 
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Code 10-6 ”计算 各 个 城市 的 平均 观众 人 数 





In [8]: ct at = matches.groupby("City")["Attendance"].mean().reset index() 
ct at = ct at.sort values(by = "Attendance", ascending = False) 
In [9]: plt.figure(figsize- (10,10)) 
ax 7 sns.barplot("Attendance", "City", 
data= ct at[:20], 
linewidth - 1, 
edgecolor = "k" * 20, 
palette = "Spectral_r") 
for i,j in enumerate(" Average attendance : " + np. around(ct_at[" Attendance" ] 
[:20],0).astype(str)): 
ax.text(.7,i,j,fontsize- 12) 
plt.grid(True) 
plt. title( "Average attendance by city", color = 'b') 
plt.show() 
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图 10-3 各 个 城市 的 平均 观众 人 数 (前 20 名 ) 
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一 个 城市 可 能 有 多 个 场馆 ,各 个 场馆 的 观众 数 可 能 也 各 不 相同 。Code 10-7 计算 
了 各 个 场馆 的 平均 观众 人 数 , 并 取 观 众 数 最 多 的 14 个 场馆 进行 可 视 化 ,其 结果 如 
图 10-4 所 示 ,可 以 发 现 与 图 10-3 中 城市 的 结果 略 有 出 入 。 


Code 10-7 计算 场馆 的 平均 观众 数 





In [10]: matches["Year"] = matches["Year"].astype(int) 
matches["Datetime"] = matches["Datetime"]. str. split("—").str[0] 
matches["Stadium"] = matches["Stadium"]. str. replace( 'Estadio do Maracana', 
"Maracan? Stadium") 
matches["Stadium"] = matches["Stadium"].str 
.replace('Maracan - Estdio Jornalista Mrio Filho', 
"Maracan? Stadium") 
std = matches. groupby(["Stadiun", "City" ]) [ "Attendance" ] 
.mean().reset index() 
.sort values(by = "Attendance",ascending = False) 
plt.figure(figsize = (8,9)) 
ax = sns. barplot(y = std["Stadium"][:14],x = std["Attendance"][:14], 
palette = "cool", linewidth = l,edgecolor = "k" * 14) 
plt. grid(True) 
for i,j in enumerate(" City : " + std["City"][:14]): 
ax.text(.7,i,j,fontsize- 14) 
plt.title("Stadiums with highest average attendance", color = 'b') 
plt.show() 
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图 10-4 场馆 的 平均 观众 数 (前 14 名 ) 
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无 论 场馆 修得 多 么 高 级 ,城市 多 么 发 达 , 最 终 对 观众 .球迷 吸引 力 最 大 的 还 是 比 
赛 本 身 。Code 10-8 筛选 了 历届 观众 数 最 多 的 10 场 比赛 ,并 进行 了 可 视 化 ,结果 如 
图 10-5 所 示 。 





Code 10-8 ”筛选 历届 观众 数 最 多 的 比赛 





In [11]: hatt 
h att 


matches.sort values(by = "Attendance" , ascending = False)[:10] 
h att[['Year', 'Datetime', 'Stadium', 'City', 'Home Team Name', 
'Home Team Goals', 'Away Team Goals', 'Away Team Name', 
'Attendance', 'MatchID']] 
h att["Datetime"] = h att["Datetime"].str.split(" —").str[0] 
hatt["mt"] = h att["Home Team Name"] + ".Vs. " 
+ h att["Away Team Name" ] 
plt.figure(figsize = (10,9)) 
ax = sns.barplot(y =h att["mt"], 
x = h att["Attendance"], palette = "gist ncar", 
linewidth = 1,edgecolor = "k" * len(h att)) 
plt. ylabel("teams") 
plt. xlabel("Attendance") 
plt.title("Matches with highest number of attendace",color- 'b') 
plt.grid(True) 
for i,j in enumerate(" stadium : " +h att["Stadiun"] 
, Date :" * h att["Datetime"]): 
ax.text(.7,i,j,fontsize - 12,color- "white",weight - "bold") 
plt.show() 
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10-5 ”历届 观众 数 最 多 的 比赛 (前 10 名 ) 
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人 ) 


10.3 ”世界杯 冠军 


截至 2014 年 ,世界 杯 一 共 举 办 了 20 届 , 共 有 8 个 国家 获得 过 冠军 。 图 10-6 展示 
T 8 支 冠军 队伍 的 夺冠 次 数 ,Code 10-9 是 具体 操作 ,可 以 看 出 巴西 队 夺冠 次 数 最 多 ， 
有 5 次 , 紧 随 其 后 的 是 意大利 与 德国 。 


In 


Number of times 


5 


N 


[12]: 
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图 10-6 ”冠军 队伍 的 夺冠 次 数 


Code 10-9 统计 冠军 队伍 的 夺冠 次 数 


cups["Winner" ] = cups["Winner"]. replace("Germany FR", "Germany" ) 
cups["Runners - Up" ] = cups[ "Runners - Up"] 
. replace( "Germany FR", "Germany" ) 
cou = cups["Winner"].value counts().reset index() 
plt. figure(figsize- (12,7)) 
sns. barplot(" index", "Winner" , data = cou, palette = "jet r", 
linewidth = 2, edgecolor = "k" * len(cou)) 
plt. grid(True) 
plt. ylabel("Number of times") 
plt. xlabel ("country") 
plt. title("Teams with the most world cup victories", color = 'b') 
plt. xticks(color = "navy", fontsize- 12) 
plt. show() 





放宽 标准 ,考虑 每 届 世 界 杯 打 入 总 决赛 的 队伍 ,可 以 得 到 如 图 10-7 所 示 的 结果 ， 
其 具体 操作 见 Code 10-10。 
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图 10-7 ”历届 世界 杯 打 人 总 决赛 的 队伍 


Code 10-10 统计 历届 世界 杯 打 入 总 决赛 的 队伍 





In [13]: cou w = cou.copy() 
cou w.columns = ["country", "count"] 
cou w["type"] - "WINNER" 
cou r = cups["Runners - Up" ]. value counts().reset index() 
cou r.columns = ["country","count"] 
cou r["type"] = "RUNNER - Up" 
cou t = pd.concat([cou w,cou r],axis- 0) 
plt.figure(figsize- (8,10)) 
sns. barplot("count", "country", data = cou t, 
hue = "type", palette = ["lime","r"], 
linewidth = 1, edgecolor = "k" * len(cou t)) 
plt.grid(True) 
plt. legend(1oc = "center right", prop = ("size":14]) 
plt.title("Final results by nation", color = 'b') 
plt. show() 
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类 似 地 ,统计 历届 世界 杯 获得 第 三 .四 名 队伍 的 操作 见 Code 10-11. £5 5 n 
图 10-8 所 示 。 


Code 10-11 统计 历届 世界 杯 获得 第 三 .四 名 的 队伍 





In [14]: thrd = cups["Third"].value counts().reset index() 

thrd.columns = ["teanm","count"] 

thrd["type"] - "THIRD PLACE" 

frth - cups["Fourth"].value counts().reset index() 

frth. columns = ["team","count"] 

frth["type"] = "FOURTH PLACE" 

plcs = pd.concat([thrd, frth],axis = 0) 

plt. figure(figsize= (10,10)) 

sns. barplot("count", "team", data = plcs, hue = "type", 
linewidth = 1, edgecolor = "k" * len(plcs), 
palette = ["grey","r"]) 

plt.grid(True) 

plt.xticks(np. arange(0, 4,1) ) 

plt.title(" World cup final result for third and fourth place by nation",color = 'b') 

plt. legend( loc = "center right",prop- ("size":12]) 

plt. show() 


World cup final result for third and fourth place by nation 
German, Eee 


Croatia EPE 


Germany FR SESS m THIRD PLACE 


Turkey ES BENE FOURTH PLACE 


Poraa 


team 


Korea Republic pm 
England — 
0 1 


w 


count 


图 10-8 历届 世界 杯 获得 第 三 、 四 名 的 队伍 
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10.4 世界杯 参赛 队伍 与 比赛 


世界 杯赛 制 自 1930 年 以 来 发 生 过 几 次 调整 ,因此 各 届 世 界 杯 的 参赛 队伍 、 比 赛 
总 数 略 有 不 同 。Code 10-12 统计 了 历届 世界 杯 的 参赛 队伍 与 比赛 总 数 ,图 10-9 为 可 
视 化 结果 。 


Code 10-12 ”统计 历届 世界 杯 的 参赛 队伍 与 比赛 总 数 





In [15]: plt.figure(figsize= (12,7)) 

sns. barplot(cups[" Year" ], cups["MatchesPlayed" ], linewidth = 1, 
edgecolor = "k" * len(cups),color = "b", 
label = "Total matches played") 

sns. barplot(cups["Year" ], cups[ "QualifiedTeams"],linewidth- 1, 
edgecolor = "k" * len(cups),color = "r", 
label = "Total qualified teams") 

plt. legend(1oc = "best", prop = ("size":13)) 

plt.title("Qualified teams by year", color = 'b') 

plt. grid(True) 

plt. show( ) 
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图 10-9 历届 世界 杯 的 参赛 队伍 与 比赛 总 数 
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在 世界 杯 比赛 中 ,每 支队 伍 因 实 力 不 同 ,参加 的 比赛 数量 不 同 。 一 般 来 讲 ,参加 
比赛 越 多 的 队伍 说 明 参 加 的 世界 杯 次 数 越 多 ,在 每 届 世 界 杯 上 淘汰 得 越 晚 , 因 此 实力 
更 强 。Code 10-13 筛选 了 25 支 参加 比赛 最 多 的 球 队 , 图 10-10 是 可 视 化 结果 。 


Code 10-13 ”筛选 参加 比赛 最 多 的 球 队 





In [16]: matches["Home Team Name"] = matches["Home Team Name"] 
. Str. replace( 'rn"» United Arab Emirates’, "United Arab Emirates") 
matches["Home Team Name"] = matches["Home Team Name" ] 
. Str. replace( 'rn"» Republic of Ireland',"Republic of Ireland") 
matches["Home Team Name"] = matches["Home Team Name" ] 
. Str. replace( 'rn"» Bosnia and Herzegovina', 
"Bosnia and Herzegovina") 
matches["Home Team Name"] - matches["Home Team Nane"] 
. Str. replace( 'rn"» Serbia and Montenegro', 
"Serbia and Montenegro") 
matches["Home Team Name"] = matches["Home Team Name" ] 
. Str. replace( 'rn"» Trinidad and Tobago', "Trinidad and Tobago") 
matches["Home Team Name"] = matches["Home Team Name" ] 
. str. replace("Soviet Union", "Russia" ) 
matches["Home Team Name"] = matches["Home Team Name" ] 
. Str. replace("Germany FR" , "Germany" ) 
In [17]: matches["Away Team Name"] - matches["Away Team Nane" ]. str. replace('rn"» United 
Arab Enirates', "United Arab Emirates") 
matches["Away Team Name"] - matches["Away Team Name"] 
. Str. replace("Cte d'Ivoire","C?te d'Ivoire") 
matches["Away Team Name"] = matches["Away Team Name" ] 
. Str. replace( 'rn"» Republic of Ireland',"Republic of Ireland") 
matches["Away Team Name"] = matches["Away Team Name" ] 
. Str. replace( 'rn"» Bosnia and Herzegovina', 
"Bosnia and Herzegovina") 
matches["Away Team Name"] - matches["Away Team Name" ] 
. Str. replace( 'rn"» Serbia and Montenegro', 
"Serbia and Montenegro") 
matches["Away Team Name"] = matches["Away Team Name"] 
. str. replace( 'rn"> Trinidad and Tobago', "Trinidad and Tobago") 
matches["Away Team Name"] = matches["Away Team Name" ] 
. str. replace( "Germany FR", "Germany" ) 
matches["Away Team Name"] - matches["Away Team Name"] 
.str.replace("Soviet Union", "Russia") 
In [18]: ht - matches["Home Team Name"].value counts().reset index() 
ht.columns = ["tean","matches"] 
at - matches["Away Team Name"].value counts().reset index() 
at.columns = ["tean","matches"] 
mt = pd.concat([ht,at],axis - 0) 
mt = mt.groupby("team")["matches"].sum().reset index() 
.sort values(by = "matches", ascending = False) 
plt. figure(figsize= (10,13)) 
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ax = sns.barplot("matches", "team", data = nt[ :25], palette = "gnuplot r", 
linewidth = 1, edgecolor = "k" * 25) 
plt. grid(True) 
plt. title( "Teams with the most matches", color = 'b') 
for i,j in enumerate("Matches played :" + 
mt["matches"][ :25]. astype(str)): 
ax. text(. 7, i, j, fontsize = 12,color = "white") 
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图 10-10 参加 比赛 最 多 的 球 队 ( 前 25 名 ) 
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当然 还 可 以 进一步 细 化 .统计 各 个 队伍 的 比赛 结果 ,具体 操作 见 Code 10-14, 2& 
果 如 图 10-11 所 示 。 


Code 10-14 计算 各 队 的 比赛 结果 





In [19]: wll 


wl. copy( ) 
wll = wll.merge(mt,left on- "team", right_on = "team", how = "left" ) 
wli["draws"] = wll["matches"]- (wli["wins"] * wli["loses"]) 
wll.index - wll.team 
wll = wll.sort values(by= "wins",ascending = True) 
wl1[["wins", "draws", "loses"]]. plot(kind = "barh", stacked = True 
,figsize- (10,17) 
„colors = ["lawngreen" , " royalblue","r"] 
,linewidth- 1, 
, edgecolor = "k" * len(wll)) 
plt. legend( loc = "center right", prop = ("size":20]) 
plt.xticks(np. arange(0, 120,5) ) 
plt.title("Match outcomes by countries",color = 'b') 
plt.xlabel("matches played") 
plt. show() 


从 图 10-11 中 可 以 进一步 提取 胜 、 负 、 平 次 数 最 多 的 队伍 ,具体 操作 见 Code 10-15. 
结果 如 图 10-12 所 示 。 


Code 10-15 ”筛选 胜 、 负 , 平 次 数 最 多 的 队伍 


In [20]: cols = [ 'wins', 'loses', 'draws'] 
length = len(cols) 
plt.figure(figsize- (8,18)) 
for i,j in itertools.zip longest(cols, range( length) ) : 
plt. subplot(3,1,j +1) 
ax = sns. barplot(i, "team", 
data= wli.sort values(by- i, ascending = False) [ :10], 
linewidth= 1, edgecolor = "k" * 10, palette = "husl") 
for k, 1 in enumerate(wl1. sort_values(by = i, ascending = False)[:10][i]): 
ax.text(.7,k,1,fontsize- 13) 
plt.grid(True) 


plt.title("Countries with maximum " + i,color- 'b') 
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图 10-11 各 队 3 种 比赛 结果 次 数 的 累计 
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图 10-12 胜 、 负 、 平 次 数 最 多 的 队伍 (前 10 名 ) 
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在 比赛 时 , 主 /客场 可 能 会 影响 比赛 结果 。Code 10-16 计算 了 主 /客场 球 队 胜率 ， 
其 结果 如 图 10-13 所 示 。 可 以 发 现 ,57% 的 比赛 是 主场 获胜 ,客场 获胜 的 比赛 仅 有 
20% ,差异 悬殊 ,所 以 说 主场 队伍 确实 是 有 一 定 优势 的 。 


Code 10-16 计算 主 / 客 场 球 队 胜率 


In [21]: def label(matches): 
if matches["Home Team Goals"] » matches["Away Team Goals"]: 
return "Home team win" 
if matches["Away Team Goals"] » matches["Home Team Goals"]: 
return "Away team win" 
if matches["Home Team Goals"] == matches["Away Team Goals"]: 
return "DRAW" 
In [22]: matches["outcome"] - matches 
.apply( lambda matches: label(matches),axis = 1) 
plt.figure(figsize- (9,9)) 
matches["outcome"].value counts().plot.pie(autopct- "&1.0f$ %", 
fontsize = 14,colors = sns.color palette("husl"), 
wedgeprops = ("linewidth":2, 
"edgecolor" :"white") 
, Shadow = True) 
circ = plt.Circle((0,0),.7,color- "white") 
plt.gca().add artist(circ) 
plt. title("# Match outcomes by home and away teams", color = 'b') 
plt.show() 
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图 10-13 主 /客场 球 队 胜率 
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10.5 世界 杯 进 球 


对 于 世界 杯 比赛 ,大 家 关注 最 多 的 还 是 进 球 。 如 果 要 分 析 进 球 ,首先 看 一 下 历届 
世界 杯 的 进 球 总 数 ,其 统计 方法 见 Code 10-17, 如 果 如 图 10-14 所 示 。 


Code 10-17 ”统计 历届 世界 杯 的 进 球 总 数 





In [23]: plt.figure(figsize= (13,7)) 

cups["Yearl"] = cups["Year"].astype(str) 

ax = plt.scatter("Year1", "GoalsScored",data = cups, 
c= cups["GoalsScored" ], cmap = "inferno", 
s7900,alpha-.7, 
linewidth = 2, edgecolor = "k", ) 

plt. xticks(cups["Year1" ]. unique()) 

plt. yticks(np. arange(60, 200, 20) ) 

plt.title('Total goals scored by year',color- 'b') 

plt. show( ) 
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图 10-14 历届 世界 杯 的 进 球 总 数 


具体 到 球 队 上 ,可 以 统计 各 个 球 队 在 世界 杯 比 赛 中 的 进 球 数 ,其 具体 操作 见 
Code 10-18 ,可 视 化 结果 如 图 10-15 所 示 。 
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Code 10-18 统计 各 队 在 世界 杯 比 赛 中 的 进 球 数 





tt gl h = matches. groupby( "Home Team Name") [ "Home Team Goals"].sum().reset 
index() 
tt gl h.columns - ["tean","goals"] 
tt gl a = matches.groupby("Away Team Name") ["Away Team Goals"] 
.sum().reset index() 
tt gl a.columns = ["tean","goals"] 
total goals = pd.concat([tt gl h,tt gl a],axis- 0) 
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Code 10-18 统计 各 队 在 世界 杯 比 赛 中 的 进 球 数 





tt gl h = matches. groupby( "Home Team Name") [ "Home Team Goals"].sum().reset 
index() 
tt gl h.columns - ["tean","goals"] 
tt gl a = matches.groupby("Away Team Name") ["Away Team Goals"] 
.sum().reset index() 
tt gl a.columns = ["tean","goals"] 
total goals = pd.concat([tt gl h,tt gl a],axis- 0) 
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total goals = total goals.groupby("team")["goals"].sum().reset index() 
total goals = total goals.sort values(by = "goals",ascending = False) 
total goals["goals"] - total goals["goals"].astype(int) 
plt.figure(figsize- (10,12)) 
ax- sns.barplot("goals","teanm",data = total goals[:20], palette = "cool", 
linewidth- 1, edgecolor = "k" * 20) 
for i,j in enumerate("SCORED " + total goals["goals"][:20].astype(str) 
+ " GOALS"): 
ax.text(.7,i,j,fontsize = 10,color-"k") 
plt.title("Teams with highest fifa world cup goals",color- 'b') 
plt.grid(True) 
plt.show() 


具体 到 比赛 ,可 以 计算 每 场 比赛 的 进 球 数 , 其 具体 操作 见 Code 10-19. Z5 JR lin 
图 10-16 所 示 。 


Code 10-19 统计 世界 杯 各 场 比赛 的 进 球 


In [25]: matches["total goals"] = matches["Home Team Goals"] 
* matches["Away Team Goals"] 
hig gl = matches. sort_values(by = "total goals",ascending = False)[:15] 
[['Year', 'Datetime', 'Stage', 'Stadium', 'City', 
'Home Team Name', 'Home Team Goals', 
'Away Team Goals', 'Away Team Name', 
"total goals"]] 
hig gl["match"] = hig gl["Home Team Name"] + ".Vs. " 
* hig gl['Away Team Name'] 
hig gl.index - hig gl["match"] 
hig gl - hig gl.sort values(by- "total goals",ascending - True) 
ax- hig gl[["Home Team Goals","Away Team Goals"]] 
. plot(kind- "barh", stacked = True, figsize = (10,12), 
linewidth = 2, edgecolor = "w" * 15) 
plt. ylabel("home team vs away team",color - "b") 
plt.xlabel("goals",color = "b") 
plt.title("Highest total goals scored during a match ", color = 'b') 
for i,j inenumerate("Date : " + hig gl["Datetime"]): 
ax.text(.7,i,j,color- "w",fontsize- 11) 


plt. show() 
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另外 ,可 以 进一步 了 解 历届 世界 杯 比赛 进 球 数 的 分 布 ,其 方式 见 Code 10-20, 结 
果 如 图 10-17 所 示 。 


Code 10-20 ”了解 历届 世界 杯 比赛 进 球 数 的 分 布 





In [26]: plt.figure(figsize= (13,8)) 
sns. boxplot (y= matches["total goals"],x- matches["Year"]) 
plt.grid(True) 
plt.title("Total goals scored during game by year",color = 'b') 
plt.show() 





Python 数据 分 析 实战 | 


Total goals scored during gsme by year 
12 
* 


* 
* 
* * 
+ * 
l * * * + ! 
* 
^ T 
1930 1934 1938 1950 1954 1958 1962 1966 1970 "m 1978 1982 1986 1990 1994 1998 2002 2006 2010 2014 
ear 





0 


图 10-17 ”历届 世界 杯 比赛 进 球 数 的 分 布 


J 
[2] 


[3] 
[4] 
[5] 
L6] 


参考 文献 


Wes McKinney. 利用 Python 进行 数据 分 析 [M]. BEA $8. ER. 北京: 机 械 工业 出 版 社 , 2014. 
Ivanldris. Python 数据 分 析 基 础 教程 : NumPy 学 习 指南 [MJ]. SK BUS: iE. 北京 : 人 民 邮 电 出 版 
社 , 2014. 

Ivan Idris. Python 数据 分 析 [M]. 韩 波 , 译 .北京 : 人 民 邮 电 出 版 社 , 2016. 

http: / /scikit-learn. org/stable/user guide. html 

PWH Em. 发 现 数据 之 美 : 数据 分 析 原 理 与 实践 [MJ. 北京 : 电子 工业 出 版 社 ，2014. 

酒 卷 隆 治 , 里 洋 平 . 数据 分 析 实 战 [MJ. 肖 峰 , 译 .北京 : 人 民 邮 电 出 版 社 , 2017. 


图 书 资源 支持 























感谢 您 以 来 对 清华 版 图 书 的 支持 和 爱护 。 为 了 配合 本 书 的 使 用 ,本 书 
提供 配套 的 资源 ,有 需求 的 读者 请 扫描 下 方 的 “ 书 圈 " 微 信 公 众 号 二 维 码 , 在 
书 专区 下 载 ,也 可 以 拨打 电话 或 发 送 电子 邮件 咨询 。 

如 果 您 在 使 用 本 书 的 过 程 中 遇 到 了 什么 问题 ,或 者 有 相关 图 书 出 版 计划 ， 
也 请 您 发 邮件 告诉 我 们 ,以 便 我 们 更 好 地 为 您 服务 。 

































































我 们 的 联系 方式 : 
地 址 : 北京 海淀 区 双 清 路 学 研 大 厦 A 座 707 





Art 


邮 编 : 100084 
电 话 : 010 一 62770175 一 4604 


资源 下 载 : http://www. tup. com. cn 





电子 邮件 : weijj@ tup. tsinghua. edu. cn 


QQ: 883604( 请 写 明 您 的 单位 和 姓名 ) 





用 微 信 扫 一 扫 右 边 的 二 维 码 , 即 可 关注 清华 大 学 出 版 社 公 众 号 “ 书 圈 ”。 


